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SUR QUELQUES POINTS 
DE LA THÉORIE DES TESTS (’? 


Georges MORLAT 


Il s'agit des principes logiques qui gouvernent le choix des tests, 
et non pas des techniques de calcul, des lois d'échantillonnage sur les- 
quelles se fondent les tests, ou des tests divers applicables à telle ou 
telle situation. Là dessus, existe une littérature extrêmement abon- 
dante, et qui s'enrichit constamment. Nous nous en tiendrons ici aux 
principes, ou à la ‘Théorie générale des Tests'', sur laquelle ont été 
exprimés par divers auteurs des points de vue en apparence contra- 
dictoires (Fisher, Neyman, Jeffreys, etc. ). 


o 


Faut-ilparler de ‘tests d'hypothèses"'"- de ‘tests de signification, 
(des paramètres)" - ou de ‘'tests'"' tout court ? 


Dans son ouvrage [10], imprégné du point de vue en vogue, consistant à 
rattacher la statistique et quelques autres sciences à la théorie de la 
Décision - tendances behavioristes'' ou ‘'opérationnelles'"! - Schlaifer 
écrit que l'expression ‘test d'hypothèse" n'est qu'un ‘résidu histo- 
rique". Ce jugement s'explique par la considération exclusive de 
problèmes économiques, mais certains statisticiens persistent à uti- 
liser des tests dans le domaine de la recherche scientifique, et leurs 
travaux s'en portent bien. Dans ce domaine, ainsi que le rappelle 
Fisher [4], ilest déraisonnable de vouloir énoncer tous les problèmes 
en termes économiques, car : 


a) une décision est toujours provisoire; 
b) ilest parfaitement irréaliste d'imaginer une longue suite 
de décisions semblables; 


c) et surtout, les coûts des erreurs sont tout à fait dépour- 
vus de sens, car on ne peut imaginer d'avance à quoi servira un pro- 
grès scientifique. 


(1) Exposé présenté au Séminaire de Statistique, le 3 novembre 1959. 
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Il semble donc que la théorie des tests doive répondre à des problè- 

mes variés. Tests d'hypothèses ou règles de décision économique ne 

doivent pas nécessairement obéir aux mêmes principes. Mais parce 

que certaines situations concrètes tiennent à la fois du choix d'une hy- 

pothèse scientifique satisfaisante et de la recherche d'un optimum éco- 

nomique, il ne semble pas que la théorie doive subir une scission 

complète : d'ailleurs, les "techniques" des tests utilisés sont souvent 
les mêmes. 


Décisions statistiques, estimation et tests. 


Si l'on a en vue les seuls problèmes susceptibles d'une interpré- 
tation économique, peut-on rattacher la théorie des tests à la théorie 
des fonctions de décision statistique, développée par Wald [6] ? Certes, - 
ilexiste entre la théorie de Neyman et les travaux de Wald une parenté : 
intellectuelle, et dans l'ouvrage cité, Wald consacre quelques pages à 
montrer qu'un problème classique de test peut être facilement énoncé 
dans le langage des fonctions de décision statistique; cependant, onne 
peut déduire des principes admis par Wald, les conventions de Neyman 
pour définir un test optimum. Cela tient à ce que la théorie de Neyman 
évite, au prix de quelques conventions, de faire intervenir effective- 
ment les coûts des erreurs. S'il vaut mieux admettre des conventions 
supplémentaires ou apprécier des coûts dans des conditions discutables, 
c'est une autre affaire, et nous y reviendrons. Bornons-nous pour 
l'instant à constater que la théorie des tests, telle qu'elle existe sous 
ses différentes formes, ne saurait être regardée comme un cas parti- 
culier de la théorie de Wald, sans perdre à la fois ses traits spéci- 
fiques et le plus clair de son efficacité. 


La théorie des tests et la théorie de l'estimation doivent-elles 
demeurer distinctes ? On a songé aussi à les confondre sous le voca- 
ble de "décisions statistiques". S'ils'agitbien, dans les deux théories, 
de décider de quelque chose - et pas nécessairement d'une action con- 
crète, mais plus souvent de la manière de conduire des calculs ulté- 
rieurs, voire simplement d'une opinion à mettre en réserve pour plus 
tard - il nous semble plus fécond ici d'opposer que de confondre. Car 
la théorie de l'estimation vise à restreindre une hypothèse, en attri- 
buant, selon les observations, une valeur numérique précise à un 
paramètre resté jusqu'alors indéterminé, tandis que les tests ont pour 
objet de remettre en cause une hypothèse jusqu'ici admise, peut-être 
en l'élargissant, en y introduisant un nouveau paramètre, voire en la 
démolissant tout à fait, si cela est nécessaire. Les deux théories ont 
donc des objectifs opposés. 


Bien sûr, à côté de l'estimation ponctuelle, on a développé des 
méthodes d'estimation par intervalles (notamment la théorie des in- 
tervalles de confiance de J. Neyman), et ces méthodes ressemblent 
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diablement à certains tests. Il y a tout un arsenal commun de calculs, 
entre les intervalles de confiance portant sur la moyenne d'une loi nor- 
male d'écart-type inconnu, et le test de Student, par exemple. Mais il 
faut considérer à quoi servent finalementces méthodes. Une estimation 
par intervalle n'est guère satisfaisante que vue comme un stade in- 
termédiaire, l'objectif restant de préciser entièrement le paramètre. 
Et lorsque le statisticien doit éclairer une décision concrète (car cela 
arrive, bien sûr, assez souvent) alors un intervalle sera souvent inac- 
ceptable. Comme le remarquait E. Halphen, l'ingénieur ne sera pas 
très content si le statisticien lui conseille de donner à un barrage une 
hauteur comprise entre h, eth,. Il doit construire un barrage, une fois 
pour toutes, et souhaite qu'on lui conseille une solution déterminée. 


À l'inverse, on a parfois envisagé, dans la théorie des tests, le 
cas où l'hypothèse alternative est plus restrictive que l'hypothèse 
testée [8]. Nous connaissons quelques exemples concrets dans lesquels 
on est effectivement tenté de poser un problème de test en ces termes; 
mais à y regarder de plus près, il nous semble que ces problèmes-là 
doivent être décomposés en un problème d'estimation, puis un pro- 
blème de test. 


Nous poserons donc en principe que les théories de l'estimation 
et des tests, si elles peuvent être au départ rattachées toutes deux à 
des règles de décision plus générales, doivent cependant être dévelop- 
pées de manière distincte, et que : 


- l'estimation vise à restreindre une hypothèse; 


- un test vise au contraire à décider s'il faut élargir une 
hypothèse. 


La théorie de Neyman. 


La théorie de Neyman et Pearson [5] est le plus généralement 
admise pour justifier les tests classiques. Elles permet,comme on 
sait, d'éviter tout recours à la ‘probabilité des hypothèses" - et fonde 
les raisonnements exclusivement sur les lois conditionnelles des ob- 
servations (conditionnel voulant dire ici : pour une hypothèse déter- 
minée). On est ainsi conduit à la considération des risques d'erreur 
des deux espèces classiques; - dont le tableau ci-dessous résume les 


définitions : 
H, : hypothèse nulle admise antérieurement, et mise à l'épreuve; 


H, : hypothèse alternative qui remplacera H, si les observations 
la controuvent. 
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Hypothèse ‘'vraie" 


Erreur de 
2ème espèce 


Hypothèse Probabilité 
retenue 


par le 


ASE Erreur de 
statisticien 


1ère espèce 
Probabilité « 


Cette façon de poser le problème des tests possède le grand mé- 
rite de mettreen lumière la nécessité absolue de formuler l'hypothèse 
alternative - qui peut d'ailleurs comporter des paramètres indéterminés 
plus nombreux que l'hypothèse nulle. Il ne semble pas qu'aucune théo- 
rie puisse se passer de cette exigence, et surtout pas la théorie de 
Bayes, dont nous parlerons un peu plus loin. L'idée qu'une hypothèse 
soit ‘vraie’ et une autre ‘fausse'' peut paraître à certains un peu 
simple, mais il convient sans doute de voir là un langage abrégé et 
commode. 


Par ailleurs, la considération exclusive des deux risques d'erreur de 
Neyman - qui équivaut exactement à l'exclusion des probabilités des 
hypothèses - est certainement raisonnable dans d'assez nombreux 
problèmes, mais nous ne pensons pas que toutes les situations où l'on 
parle habituellement de tests se ramènent à ce schéma. C'est pour- 
quoi nous examinerons plus loin, sous le titre de "théorie de Bayes", 
les méthodes pronées par Jeffreys, Maurice Dumas et d'autres. 


Mais, restons pour l'instant dans le cadre de la théorie de 
Neyman. On sait que le choix d'un test optimum présente peu d'arbitrai- 
re lorsque les hypothèses H, et H;, sont toutes deux simples (c'est-à- 
dire qu'elles ne contiennent aucun paramètre indéterminé). La seule con- 
vention consiste à attribuer d'office une valeur (ou une borne supérieure) 
à la probabilité à. Cette valeur (faible en général)est le seuil de con- 
fiance. Le meilleur test est alors celui qui minimise 8 , tout le monde 
sera sans doute d'accord là dessus. 


On a souvent critiqué cette façon dissymétrique de traiter les 
deux espèces d'erreurs. La justification classique se réfère à la na- 
ture des coüts inhérents à ces erreurs. On dira par exemple qu'une 
erreur de première espèce peut être grave, tandis qu'une erreur de 
seconde espèce n'est qu'une perte monétaire banale, s'il s'agit de 
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tester la composition d'un produit pharmaceutique présentant des dan- 
gers pour le client lorsqu'on laisse passer un échantillon défectueux 
(c'est l'erreur de première espèce). A notre sens cette justification 
est fort particulière et ne s'applique qu'à une classe restreinte de pro- 
blèmes. Mais nous pensons que le traitement dissymétrique des deux 
espèces d'erreurs est beaucoup mieux justifié par le fait que l'hypo- 
thèse nulle est privilégiée, correspond à une explication de structure, 
peut-être grossière, des phénomènes étudiés, et en tout cas avaitété 
jusqu'ici admise, et non pas gratuitement sans doute. Au contraire, 
l'alternative n'est souvent qu'un pis aller. C'est une manière faible 
d'introduire la préférence du statisticien pour ses hypothèses - beau- 
coup plus faible, cela va de soi, que les probabilités a priori de la for- 
mule de Bayes. 


Mais enfin ... chassez l'intuition, elle est revenue ... à pas de loup. 


C'est donc dans le choix du seuil de confiance que nous la retrouvons 
(et alors nous ne dirons plus que ce choix est arbitraire). 


(Notons au passage que même si les coûts des deux espèces 
d'erreur, étaient jugés égaux, il serait complètement dépourvu de sens 
de vouloir minimiser la somme & +8, et que la minimation d'une 
combinaison pondérée de ces deux risques reviendrait très précisé- 
ment à introduire les probabilités des hypothèses que cette théorie se 
propose d'exclure).' 


Cela dit, faut-il garder aveuglément la règle proposée par 
Neyman : fixer &« et minimiser B ? Considérons l'exemple suivant : 


H, : des observations proviennent d'une loi normale (0,1) 
H, : elles proviennent d'un loi normale (1,1) 


E ; 1 
La moyenne arithmétique x, obéit à une loi normale DÉC pes 


dans les deux hypothèses, et de moyenne égale à 0 dans l'hypothèse 
nulle, à 1 dans l'hypothèse alternative. 


Sionse donne le seuil de confiance du test, par exemple 1%, le risque 
d'erreur de seconde espèce sera très voisin de zéro si le nombre d'ob- 
servations n est très grand. La puissance du test sera donc voisine 


de 1. 


On peut facilement déterminer n pour que la puissance soit, par exem- 
ple, égale à 1 - 106 (il suffit pour cela qu'on ait n = 50). 


Un statisticien superficiel(s'ilenexiste) trouverait peut-être que 
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cette situation est très bonne. Mais en vérité, si l'on a trouvé avec 
50 observations x = 0,35, notre test de seuil 1% nous conduirait à re- 
jeter H, (qui rend l'échantillon assez improbable) au profit de H, (qui 
rend l'échantillon infiniment plus improbable). 


La leçon à retenir, c'est que les tests très puissants, ne sont pas 
satisfaisants, ou encore que le risque d'erreur de seconde espèce doit 
être minimum, mais pas trop petit! 


Ilest vrai qu'untest entre deux hypothèses simples est un problè- 
me très particulier - souvent peu réaliste. Le test d'une hypothèse 
simple contre une hypothèse paramétrique est beaucoup plus courant. 


Dans ce cas, hormis l'existence d'un test U M P (circonstance 
heureuse, mais exceptionnelle) on est conduit à choisir un test en vertu 
d'une règle conventionnelle, choisie dans un arsenal assez décousu. 


Un excellent inventaire de cet arsenal se trouve dans un mémoire de 
Lehman {8]. 


La règle la plus connue, consiste à retenir comme optimum un 
test défini par une région de rejet constituée par la réunion des régions 
critiques des tests optimaux relatifs aux diverses hypothèses simples 


constituant H,, pour un rapport de densité À - 2 constant. 
ÿ 


C'estce que les anglo-saxons ont coutume de nommer ‘likelihéod ratio 
test", et que nous désignerons d'une manière plus abrégée par ‘test 
de type À". Cette règle permet de justifier la plupart des tests cou- 
ramment utilisés, mais divers exemples ont été donnés, notamment 
par Stein !{8] dans lesquels un test de type À apparaît comme un très 
mauvais test. 


Donnons un exemple beaucoup moins perfectionné que celui de 
Stein, mais peut-être plus suggestif : il s'agit d'une observation uni- 
que, susceptible de prendre 3 valeurs a, b, c. L'hypothèse H, est sim- 
ple, l'hypothèse H, est formée des 2 hypothèses simples H! et H!'.Le 
tableau ci-dessous donne les lois de probabilité de l'observation. 


| 
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Si l'on veut tester H, au seuil 10%, le test de type À nous donne pour 
région critique W={a, b}. Le risque d'erreur de seconde espèce pour 
ce test est égal à . 92. 


Si l'on choisissait pour région critique W = {c : 1/9} - c'est-à-dire 
si l'on effectuait un tirage au sort avec une probabilité de 1/9 de re- 
jeter H,, lorsqu'on a obtenu c, alors on aurait également un test de 
seuil 10%, pour lequel l'erreur de seconde espèce serait égale à .83. 
Il est donc certainement meilleur que le test de type À. 


Ce genre de mésaventure ne semble guère à craindre pour la 
plupart des tests présentés dans les traités classiques; il souligne 
seulement le caractère conventionnel des principes proposés par 
Neyman. Il serait intéressant de pouvoir joindre à ces principes quel- 
que restriction garantissant qu'ils conduisent à un test admissible. 
(C'est-à-dire tel qu'il n'existe aucun test de même seuil et de puis- 
sance supérieure). 


La théorie de Bayes. 


Si l'on met à part l'idée audacieuse de l'équiprobabilité repré- 
sentant l'ignorance, on peut bien dire que Bayes [1] avait résolu à sa 
façon les problèmes de tests, comme toutes les décisions statistiques. 


La probabilité des hypothèses (qui implique une interprétation 
lsubjectiviste'" de la notion de probabilité) a été considérée durant 
quelques décennies comme pelée, galeuse ... et dangereuse - et son 
éviction a permis, il faut le dire, de brillants développements de la 
statistique moderne [5]. [6]. 


Mais un mouvement en sens contraire semble maintenant s'am- 
plifier. En vérité l'attitude ‘'subjectiviste" n'a jamais cessé d'avoir 
des adeptes, et parmi les plus notables il faut citer de Finetti et 
Jeffreys [12]. Halphen [11] avait noté qu'onsait toujours quelque chose 
concernant un fait incertain, et qu'on ne peut se passer de cette con- 
naissance imparfaite (vraisemblance). Cependant les pages de son mé- 
moire relatives à la théorie des tests sont parmi les moins fermes. 


L.J. Savage a achevé entre ses deux ouvrages [9] - celuide 
1954 et celui qu'il prépare - une conversion complète. L'ouvrage de 
Schlaifer [10] présente d'emblée un point de vue bayesien, qu'il op- 
pose, comme moderne", à la théorié ‘'classique" de Neyman. Comme 
symbole, signalons qu'il ne désigne pas autrement que par basic ran- 


dom variables'' les paramètres inconnus d'une loi de probabilité. 


Les principes de la méthode de Baÿes sont fort simples. 
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Si l'on donne des probabilités a priori aux hypothèses envisagées, la 
connaissance des observations permet de calculer des probabilités 
conditionnelles (ou a postériori) d'après lesquelles on jugera de l'hy- 
pothèse à retenir. Il n'y aurait pratiquement pas lieu de parler de 
théorie des tests, n'était la recherche des probabilités a priori qui 
justifient les tests couramment utilisés 2] - et la confrontation avec 
les autres théories, seul point sur lequel nous porterons ici l'attention. 
Lorsqu'il s'agit de choisir entre deux hypothèses simples, relatives 
par exemple à la densité de probabilité d'une variable continue, on 
aura donc : 


Hypothèses Densité Probabilité a priori 
H, fo(X) Po 
H, … f(x P; 


et les probabilités a postériori seront : 


2 f(x) 
Pofo(x) + Pifi(x) 


L: f(x 
B = Db(x) + pin) 


La région d'acceptation (de H,) sera défini par + > k, soit 
L 


Po f(x) LL 
Pi f(x) 


On constate que cette condition est formellement identique à celle qui 
définit la région critique de Neyman, mais le seuil de signification du 


test dépendra, naturellement, de, Par ailleurs, si les probabilités 
al, 

a priori p, et p, représentent intégralement les ‘'attitudes'' à l'égard 

des hypothèses H, et H;, celles-ci doivent être traitées symétrique- 

ment, il faut prendre k = 1. Mais ce n'est sans doute pas toujours le 

cas. 


Le choix des valeurs de p,, p, et k est éminemment subjectif; il 
ne convient pas de rechercher des règles standard pour fixer ces va- 
leurs selon la forme analytique du problème, comme on l'a tenté parfois. 


Si maintenant l'hypothèse H; est paramétrique (Ho correspond, 
comme c'est généralement le cas, à une valeur particulière du para- 
mètre) alors il faut distinguer deux types de situations. 
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Dans un premier type - H, non privilégiée - la distribution a priori 
du paramètre Ÿ est représentée par une densité continue p($)-et la 
distribution a postériori sera : 


p(Ÿ/x) = p(9)fa(x) 
JP, (x)dS 


Si dans l'hypothèse H, on suppose que $ = %, letest consistera 
à examiner si la distribution a postériori que nous venons d'écrire est 
suffisamment concentrée autour de $. Reste à définir quelque critère 


pour en juger. 


Le second type - H, privilégiée - représente peut-être de ma- 
nière plus réaliste l'attitude mentale du statisticien vis-à-vis des hy- 
pothèses dans beaucoup de situations concrètes. On donnera une pro- 
babilité a priori finie p, à l'hypothèse nulle, et on répartira le complé- 
ment p, suivant une courbe de densité convenable (#). 


Alors, la probabilité a postériori de H, sera : 


Pofo(x) 


P = Prob. (H,/x) = : 
Pofo(x) + pa / fo(x)p(8)d9 
et la règle pourra être de retenir l'hypothèse H, si la valeur de P est 
au moins égale à 90% par exemple. 


Ce schéma a été utilisé par Lindley [13] pour une confrontation 
instructive entre la méthode de Neyman et la méthode de Bayes. Mais 
ila donné lieu à peu de développements d'ordre général, en dépit du ca- 
ractère réaliste qu'il nous semble bien posséder. 


Revenant au premier type - H, non privilégiée - il est intéressant 
de signaler que ce schéma permet de justifier dans certains cas la mé- 
thode de Fisher (probabilités fiduciaires): la probabilité fiduciaire est 
1a limite de la probabilité conditionnelle du paramètre (les observations 
étant données) lorsque sa probabilité a prioridevient très ‘'dispersée ". 
Les termes de cette proposition seraient à préciser, et nous nous bor- 
nerons à donner, avec Schlaifer [10] l'exemple particulièrement simple 
de la moyenne d'une loi normale d'écart-type connu. Si un échantillon 
a une moyenne x, dont l'écart-type sera noté © pour alléger les formu- 
les, et si la distribution a priori de m est une loi normale (m,, G), 
alors la distribution a postériori de m sera une loi normale, de moyenne 


= + —— 
[of [of 
m =——————— et d'cart-type O1 = 


jl 1 
(of (oJ 
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On voit que si l'on suppose 0, très grand, cette loi est approximative- 
ment une loi normale de moyenne % et d'écart-type © : c'est la loi de 
probabilité fiduciaire de Fisher. 


Le test du x°et la théorie de Neyman. 


Le test du x?, qui est la première pierre de la statistique mo-. 
derne [2] a eu un destin assez curieux. D'une part, dans l'emploi le 
plus courant (test d'ajustement) on lui donne un sens un peu différent 
de ce que Karl Pearson avait en vue : le titre de son mémoire montre 
clairement que pour lui, la chose à mettre à l'épreuve était le tirage 
au hasard - "... that it can be reasonably supposedto have arisen from 
random sampling.'"" - tandis qu'on admet souvent que la question 
traitée est plutôt : ‘cette urne-là ou bien une autre ?'', l'hypothèse de 
tirages au hasard n'étant point en cause. 


D'autre part, si l'on retrouve la loi de X bien souvent - et en 
particulier comme distribution asymptotique générale dans les tests 
entre hypothèses paramétriques selon Neyman - le problème traité par 
Karl Pearson ne semble pas avoir été revendiqué par les auteurs de 
la ‘'théorie générale" : le test du x? est-il "le meilleur'' test d'ajuste- 
ment ? Nous ne trouvons pas la réponse à cette question dans les traités 
classiques. 


Il est cependant bien facile de s'assurer que ce test, dans son 
emploi courant, possède les propriétés d'optimalité asymptotique dé- 
finies par Neyman. Car, dans cet emploi, si l'hypothèse testée consiste 
dans les probabilités p,, p,, ..., p,, l'alternative, que l'on n'explicite 
pas en général, sera tout autre système de probabilités p!, p!, ..., p' 
(de somme unité). 


On doit donc tester une hypothèse simple contre une hypothèse 
paramétrique, et l'on peut chercher le test de type À (équivalent com- 
me on sait au test contre l'hypothèse simple obtenue en estimant les 
paramètres par la méthode de Fisher). 


Le rapport de probabilité ("'likelihood ratio''} est alors le maxi- 
mum de 


k p'\"i ee de 
JT …. et s'écrit TK (& ) 
i=]1 P. i=] n P; 


La meilleure région critique est de la forme 


X + 
! 


rt (=) 10 
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En passant aux logarithmes, il vient : 


Xi 


bb 2 
ST Gi mp) > (CE 
n P. np 


2 x, log 


On peut donc ainsi justifier le test du X° par la méthode de Neyman. 


L'introduction du coût des erreurs 


Avant d'aborder la conclusion, à laquelle mènent ces réflexions 
sur la théorie des tests, revenons un instant sur la question du coût 
des erreurs. Beaucoup de statisticiens - surtout économistes - ont 
salué avec joie la parution des travaux de Wald (statistical Decision 
functions) moins pour le rapprochement avec la théorie des jeux et 
l'usage du minimax, que pour l'accent mis sur les coûts : remplacer 
une condition fixant un seuil de confiance, par la condition de minimi- 
ser quelque coût moyen, voilà qui semblait permettre d'échapper com- 
plètement à l'arbitraire dont souffrait - en apparence - la statistique. 


I1 faut alors examiner cette question : d'affecter des coûts aux 
erreurs que peut commettre le statisticien, cela permet-il d'échapper 
à toute règle conventionnelle ? Dans le cadre de la théorie de Bayes, 
ilest facile de s'en assurer. Quelques complications formelles peuvent 
se présenter dans le cas (paramétrique) où l'hypothèse testée estprivi- 
légiée, mais cela estassez secondaire. Raisonnons, pour la simplicité, 
avec deux hypothèses Ho et H: simples. Supposons que les erreurs 
seules sont coûteuses, et soient p, et p, les probabilités a priori des 
hypothèses, f(x) et f.(x) les lois des observations dans chaque hypo- 
thèse ; les observations x étant connues, on sera conduit à rejeter 
l'hypothèse H, si les probabilités a postériori F, et P, sont telles que : 


PASSE A 


A et B étant respectivement les coûts, des erreurs de 1ère et 
de 2ème espèce; c'est-à-dire que la région critique sera de la forme : 


CORPS 
1, (<) ok" Diet À 


La région critique est donc de la même forme que celle que définit la 
théorie de Neyman, mais les coûts et les probabilités a priori déter- 
minent le seuil de confiance du test, comme il est naturel. 


Que peut-on dire, maintenant, dans la théorie de Neyman, si l'on 
introduit les coûts des erreurs, et cela seulement ? Il estfacile de 
voir qu'on ne peut que reporter la convention des probabilités sur les 
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coûts - mais le choix d'un test ne saurait être ramené à une simple 
condition d'optimum. 


Le tableau des coûts éventuels est donné ci-dessous. 


Hypothèse ‘vraie! 


(probabilité 8 ) 
O 


Hypothèse 
retenue 


A 
(probabilité à ) 


Mais les probabilités à et 8 sont des probabilités ‘'conditionnelles" et 
ne permettent pas de calculer un coût moyen global, en l'absence de 
probabilités des hypothèses. Que peut-on faire alors ? 


On peut fixer a priorinonplus &, mais le coût moyen conditionnel 
Aa, et choisir le test qui rend BB, c'est-à-dire B, minimum. On re- 
trouve la règle de Neyman, avec un seuil de confiance inversement 
proportionnel au coût de l'erreur de première espèce. 


L'application d'un critère autre que la minimation d'un coût, tel 
que le minimax, ne présenteici aucun intérêt, puisqu'elle impliquerait 
qu'on ne tienne aucun compte des observations. Et c'est justice, car 
l'absence de probabilités a priori interdit qu'on affecte aux hypothèses 
des probabilités, ce quipeut se traduire en disant que les observations 
ne nous apprennent rien sur la crédibilité des hypothèses. La théorie 
de Neyman donne des règles de conduite, non pas des règles de croyan- 
ce. Pour citer Neyman, ‘this may be considered unfortunate, but we 
cannot help it, and have simply to face the fact." [5]. 


Peut-on conclure pour une théorie des tests - Neyman ou Bayes ? 


Cela dit, quelle théorie faut-il donc admettre comme bonne ? 


Nous pensons qu'ilne convient pas de poser cette question. Pour nous, 
la théorie de Bayes et la théorie de Neyman sont bonnes toutes les deux. 


Dans un problème concret, lorsque nous éprouvons le besoin de tester 
une hypothèse, ce que nous savons des chances", de la ‘'vraisem- 
blance"” (Halphen) - de cette hypothèse et de celles qui peuvent la rem- 
placer, est souvent assez flou, et de représenter cela par des proba- 
bilités a priori peut paraître une schématisation outrancière. Mais de 
n'en tenir aucun compte n'est pas moins outrancier, sans doute. 
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A se rallier à Neyman, on bénéficie de cet avantage, que toutes 
les probabilités dont on parle sont susceptibles d'une interprétation 
comme limites de fréquences - conditionnelles, il est vrai - et si le 
problème concret est tel que ces notions suffisent pour éclairer la dé- 
cision, alors il faut certainement s'en tenir là. C'est le cas de beau- 
coup de problèmes touchant aux fabrications industrielles. Mais si le 
désir réel du "client" est d'éprouver sa confiance dans l'hypothèse 
testée, alors la théorie classique des tests repose sur la fameuse er- 
reur de troisième espèce, et conduit à traiter avec beaucoup de rigueur 
un problème qui n'est pas le problème posé. Car l'interprétation du 
seuil de signification d'un test comme une probabilité de l'hypothèse 
testée (et qui nous garantit contre une telle interprétation même in- 
consciente ?) constitue une erreur capitale, hormis les cas particuliers 
où la distribution fiduciaire de Fisher sera regardée comme forme 
limite de la loi a postériori des hypothèses. Encore faut-il que la loi 
a priori implicitement admise soit directement jugée raisonnable - et 
alors c'est Bayes et non plus Neyman, qui est en cause. 


D'un autre côté, la théorie de Bayes a l'avantage de donner la 
réponse à un problème de test avec le minimum d'arbitraire - si l'at- 
tribution de probabilités aux hypothèses peut être jugée elle-même pas 
trop arbitraire. 


Les avantages et inconvénients que nous venons de rappeler ne 
constituent nullement des raisons de choisir l'une ou l'autre théorie, 
puisque celles-ci ne répondent pas à la même question. C'est du pro- 
blème concret que doit dépendre le point de vue adopté - les seules 
règles générales étant d'éviter les diverses sources de confusion qui 
ont joué un certain rôle historique, et d'accorder quelque soin à l'in- 
terprétation concrète des notions et des conventions proposées par la 
théorie. 
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Pierre THIONET 
LA PERTE D'INFORMATION 
PAR SONDAGE 
(Calcul des probabilités) 


INTRODUCTION 


L'objet de la présente thèse est l'introduction du concept d'infor- 
mation au sens de Schutzenberger dans la théorie des sondages. On est 
parti de l'idée de la validité, dans ses grandes lignes, de la technique 
des sondages (telle qu'elle est enseignée dans les manuels de Yates - 
traduit en français sous la direction de M.G. Darmois, - de Deming, de 
Hansen, Hurvitz et Madow, de Sukhatme, de Cochran, etc., dansles 
cours de Tang, Kellerer, Zarcovic, etc. Lévy-Bruhl, Chartier, Desa- 
bie, et nous-même). On a admis toutefois que les concepts théoriques 
qui sont à la base de ces méthodes pouvaient gagner à un examen nou- 
veau, - et que la technique s'en trouverait consolidée. 


Malgré l'accord qui règne entre tous ces auteurs, il existait en 
fait deux écoles : celle de Rothamsted pour laquelle les échantillons et 
populations sont extraits d'univers d'effectifs infinis, où les variables 
ont des distributions volontiers continues et dotées de densités; celle du 
Bureau of the CENSUS pour laquelle les échantillons sont extraits de 
populations-univers d'effectifs finis (ce qui conduit notamment à consi- 
dérer un coefficient de corrélation intraclasse compris pour les uns 
entre let 0, et pour les autres entre 1 et -1/ v - 1}. Nous nous plaçons 
d'emblée dans l'école américaine, sous réserve qu'on n'oublie pas le 
cas limite (essentiel en pratique) où v devient infiniment grand, 


L'existence de lois de distribution dont le moment d'ordre 2 n'exis- 
te pas ne posera pas de problème bien grave (car toutes les informations 
ne sont définies qu'à un facteur près). 


On nous reprochera sans doute davantage d'avoir défini la perte 
d'information à partir d'un univers complètement connu dont les élé- 
ments échappent un à un à notre vue (contrairement aux méthodes d'a- 
nalyse progressive), au lieu de définir le gain d'information à partir 
d'un état initial de la connaissance, comme le fait Lindley (suivant de 
près la définition que Shannon donne de l'information dans la théorie des 
communications). Lindley n'obtient de résultats qu'en supposant con- 
nues et la loi de distribution (école de Rothamsted) et la probabilité a 


270 PIERRE THIONET 


priori des paramètres à estimer, considérés comme des variables aléa- 
toires (méthode d'estimation d'après Bayes). Cette théorie ne paraît 
pas, au moins sous sa forme actuelle, applicable aux techniques de son- 
dage (Ch.VIII). Par exemple une quantité d'information qui devient infi- 
nie avec le nombre de tirages (avec remise) est inapplicable aux sonda- 
ges à plusieurs degrés, stratifiés et en grappe. 


Au contraire nous avons retrouvé, aux premières places des per- 
tes d'information, la variance d'échantillonnage, dont fait grand usage la 
technique. Nous avons d'ailleurscritiqué, pour les estimateurs biaisés, 
le procédé courant qui consiste à ajouter à la variance le carré du biais; 
ce totaln'est plus une perte d'information. Nous avons également signalé 
que l'usage de la variance n'était pas approprié au cas de l'estimation 
d'une médiane. 


De toute façon la variance est une perte d'information particuliè- 
re, à savoir symétrique; elle suppose qu'on attribue le même poids à 
deux erreurs d'échantillonnage, l'une positive, l'autre négative, de mê- 
me ampleur. - On en a trouvé bien d'autres. 


Les expressions de la perte d'information dans le cas de distri- 
butions quelconques (Ch.IV) n'ont été trouvées que sous des conditions 
de régularité très restrictives; il est possible que ces conditions puis- 
sent être réduites; en outre il y aurait lieu d'étudier plus systématique- 
ment, les possibilités que peut présenter le cas où la dérivée première 
n'existe pas quand la perte élémentaire s'annule (ou d'autres cas encore). 


Nous n'avons pas été en mesure, d'ailleurs, d'interpréter toute 
perte d'information au moyen d'estimateurs et de quantités à estimer; 
il semble que ce soit impossible. - Une autre lacune dans nos recher- 
ches serait une étude de l'estimation du mode de l'univers par celui 
de l'échantillon; il y aurait un réel intérêt pratique à savoir exprimer (et 
minimiser) la perte d'information correspondante. 


Pour l'estimationde la plus grande valeur ou de l'étendue (range), 
la répartition optimum de l'échantillon sera celle qui donne la moindre 
perte d'information, par une extension naturelle de la théorie dela 
moindre variance. Le total[coût d'enquête, plus perte d'information]est 
à minimiser, cequiestassez dans les idées de Wald (1950); le multipli- 
cateur de Lagrange joue le rôle d'unité monétaire. 


Chemin faisant, nous avons complété la théorie de l'estimation 
par sondage dans le cas biaisé. On aurait pu croire qu'alors toute sta- 
tistique pouvait servir à estimer tout paramètre. Du moment qu'on dé- 
finit l'information par une récurrence entre estimations sur une suite de 
plans de sondage de tailles décroissantes, l'estimation Z' n'informesur 
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© que si elle informe sur tous les Z qui s'intercalent entre Z' et &. 
La perte d'information ne peut être définie que pour les estimateurs 
uniformément biaisés; ce qui signifie qu'il existe une fonctionnelle 
A([Z'Z] telle qu'on ait &A = 0. 


Ceci conduit à calculer la perte d'information dans le cas où il 
existe une fonctionnelle y telle que : 


& ylZ] =w [{] 


En particularisant encore, on a introduit l'estimateur isomorphe 
qui permet de retrouver les cas pratiques courants d'estimation biai- 
sée; il correspond au cas où & = f(a, b, c) Z = f(A, B, C}), la fonction 
f étant la même, À B C étant des aléatoires calculés sur l'échantillon, 
leurs espérances mathématiques étant a b c. Les indicateurs que cal- 
culent les techniciens ont été retrouvés, par exemple pour les ratios; 
ce qu'on considérait jusqu'ici comme des valeurs approchées des car- 
rés des coefficients de variation sont de véritables pertes d'information. 


A cette même occasion on a retrouvé l'information de Fisher, 
comme perte d'information de l'estimation du maximum de vraisem- 
blance - Ch.IV). 


Les plans de sondage réels étant notablement plus compliqués que 
l'urne de Bernoulli, on a mené séparément et parallèlement l'étude de 
ces deux cas (Ch.Il, Il). On a eu l'idée de représenter les sondages 
dans l'urne unique par des points d'un axe et les sondages plus géné- 
raux par les points d'un treillis, les distances étant comptées sur les 
droites du dit treillis (Ch.IIl). Cet éclatement des difficultés suivant 
leur nature, topologique ou analytique, s'est révélé fructueux. - La 
représentation métrique des plans de sondage dans un espace euclidien 
à un nombre donné de dimensions a paru facile pour les sondages à 
plusieurs degrés et même à plusieurs phases. - Notre compréhension 
des formules de variance (apparemment compliquées) s'en est trouvée 
améliorée (Ch. V, VI). 


La perte d'information étant supposée prendre place dans l'en- 
seignement des Sondages, doit-on continuer à parler des informations 
supplémentaires dont l'emploi permet d'améliorer les estimateurs ou 
les plans de sondage ? Autrement dit, que devient l'information quand on 
compare plusieurs itinéraires {Z, au lieu de se déplacer le long d'un 
seul itinéraire? Tel est l'objet du Chapitre VII. 


Au total nous pensons que les statisticiens ne devraient pas dire 
d'un plan de sondage qu'il apporte plus d'information qu'un autre, mais 
qu'il fait perdre moins d'information que l'autre. Une perte négative 
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est un gain, par rapport àun sondage de référence. Les diverses théo- 
ries définissent des niveaux d'information; pour nous le niveau le plus 
bas correspond à un sondage (5) de taille minimum; pour d'autres il 
correspond à des renseignements antérieurs permettant d'écrire une 
loi de probabilité a priori. Quant au niveau le plus élevé, pour nous il 
est nécessairement à distance finie; d'autres l'autorisent à s'éloigner 
à l'infini. - Cela mis à part, l'équation de récurrence est la même; 
la nature des solutions diffère; car le symbole Espérance Mathémati- 
que n'a pas du tout le même sens chez Lindley qu'ici même. La topo- 
logie serait la même, si nous n'avions trouvé utile de faire jouer à 
l'infini un rôle spécial : il représente l'absence de toute information 
utilisable; et il est conforme aux habitudes des techniciens de penser 
qu'on n'a pas d'information utilisable tant qu'il reste une strate non 
sondée (Ch. VIII). 


On peut penser finalement que la technique classique des sonda- 
ges (y compris l'estimation du maximum de vraisemblance de Fisher, 
sort consolidée de notre analyse. 


CHAPITRE | 


TIRAGES ÉQUIPROBABLES DE BOULES 
DANS UNE URNE 


I - INTRODUCTION - 


1/ - Point de départ concret. 


Les plans de sondage sont établis en pratique pour estimer cer- 
taines grandeurs physiques (économiques, sociales, médicales, etc.) 
au moyen d'observations limitées à un échantillon désigné par des ti- 
rages au sort plus ou moins compliqués. 


Dans la plupart des cas, ces grandeurs sont des valeurs totales 
(superficie cultivée en jute, nombre de personnes travaillant moins de 
quarante heures par semaine, etc. )ou (ce qui revient au même pour 
la statistique pratique) des valeurs moyennes ou des pourcentages" 
par unité de sondage. On ‘'extrapole", c'est-à-dire qu'on passe des 
pourcentages ou valeurs moyennes à l'estimation du total, en multi- 
pliant par un facteur connu. 


Ainsi la technique des sondages est axée sur les problèmes d'es- 
timation de moyennes - compte tenu d'un plan de sondage plus ou moins 
compliqué. j 


L'estimation des ratios est un autre problème pratique très im- 
portant qui ne pourra être étudié dans les premiers chapitres. On la 
trouvera au chapitre IV. 


On commence par l'étude du plan de sondage le plus simple : ti- 
rages équiprobables de boules dans une urne, sans remise puis avec 
remise. 


2/ - Définitions. 


Considérons une urne (ou univers) U renfermant v boules numé- 
rotées 1, 2, ... i... v portant chacune un nombre réelx;.Désignons 
par X l'ensemble de ces v valeurs. 


274. PIERRE THIONET 


La moyenne des x: sera notée : 
à x,/v=x 
L'écart-type des x, esto, défini 2. 5 

D (x, = à) /v =10? 


On tire au sort une boule de l'urne, n fois de suite sans jamais 
remettre les boules tirées. Pour un échantillon donné de n boules, la 
moyenne des n valeurs de x; ainsi connues sera notée : 


S, x/ns= XX, ou X 


X,est une variable aléatoire lorsque (n étant donné) on envisage 
les m échantillons également probables à extraire de l'urne, avec cha- 
cun desquels on peut calculer une valeur de X,. 


Cas des tirages sans remise ou exhaustifs .. m=v!/n! (v-n)! 


n 
Vv 


Cas des tirages avec remise ou bernoulliens m 


__ Lorsque x n'estpas connu, on l'estime" par une certaine valeur 
de X,, à savoir celle calculée sur l'échantillon effectivement tiré. 


On dit que X, est estimateur ‘'sans biais'' de x, parce qu'on a : 


EP 


n 


où l'opérateur & désigne l'espérance mathématique (étendue aux m va- 
leurs également probables de X,). 


Ce qu'on dit pour x et X s'étend aux moments d'ordre quelcon- 
que de X calculés sur l'univers et sur échantillon (avec la même ori- 
gine pour X). 


Plus généralement on considèrera l'estimateur sans biais Z de 
l'estimé Ç définis sur l'échantillon et sur l'univers respectivement, 
avec&Z =&. 


Erreur d'échantillonnage : 


On désigne ainsi l'aléatoire X - X, ou encore Z -&. 


Ona coutume de repérer l'ampleur des erreurs d'échantillonna- 
ge par là variance de l'estimateur, V Z = &(Z - [). On sait que : 
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VX, [=(02/n)(v-n/v-1)(sitirages exhaustifs) 
= o2/n (si tirages bernoulliens) 


On emploie également beaucoup la racine carrée de cette 
variance : 


o(Z) =VV(2) 
ou écart-type de Z, et la valeur relative de cet écart-type 
s(Z)/& = C.V(Z)=7y 
ou coefficient de variation (souvent exprimé en pour cent). 
I - LEMMES - 
Lemme 1. 


Le carré de l'écart-type de v valeurs de (x) peut s'écrire : 


\' 52 
'i 


2 


o 2 


Vv 


52 désignant le carré de la différence de deux quelconques des valeurs 


de x, MR) 
> désignant la somme des Er 7 valeurs distinctes de & . 
2 2 
Autre forme du Lemme : = E 


Où A = ÿ 5 pen désigne la moyenne des écarts carrés. 


Démonstration du Lemme. 


= [> (x - x) 1% 
i Djsi 

NE Ÿ > PTE SE 6 = xx - ao] /° 
i=i j#i EE 


Les carrés distincts (x; - x;)° sont au nombre de v(v- 1)/2 


Ÿ (x; - x) comprend (v- 1) termes 
j#i 
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Ÿ Ÿ (x; - x,)° comprend (v - 1) termes 
i=1 j#i 


Ÿ (x; - x;)(x: - x) comprend (v- 1) (v - 2) produits. 


se Cr LÆ 
È 


En sommant cette dernière expressionpar rapport à i, on obtient 
(v - 1)(v - 2) produits. 


2020 À vareurs dis- 


Or les (x;- x;)(x; - x,) comprennent 
tinctes, de sorte que 


> Ÿ(x = X;)(x, - x,) est égal à deux fois la somme de tous les pro- 
en; 


LE duits distincts. 
Mais : 
(Ki LR EE CE OC RIRE EN RE 
he ie x;Ÿ 


Les (v - 1}(v - 2) produits donnent donc naissance à (v - 1}v - 2)/ 2 
carrés, c'est-à-dire (v - 2) fois chaque carré distinct, c'est-à-dire 


(v-2)Y6 
Ainsi : 
vI82 2200 52 10705) 5 
= v D 6? 
d'où o2 = ÿ 52/ v? cs de 10e 


En particulier si la variable x prend les valeurs a et b, le carré 
de l'écart-type de x peut s'écrire : 


“-[C-e9 6-2) 


= (a - b)°/4 


Lemme 2 sur la variance d'un échantillon exhaustif. 


Pour l'échantillon d'effectif n, la moyenne des différences car- 
rées sans répétition est : 


PAL 4 
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>. 2 
D =2S(x;-x;) /n(n-1) 
où S désigne la sommation étendue à l'échantillon. Il est évident que 
1" E(D) = 4 


où E désigne l'espérance mathématique lorsque n est donnée. 


n =. Fe ere À) 
D mes = 
Il en résulte que : 
(ASS UCE 
E fn=i) ve t 


Tel est le lemme 2. (Résultat connu, parfois oublié). 


Lemme 3 sur la variance d'un échantillon bernoullien. 


Faisons tendre v vers l'infini; il vient à la limite : 


Lemme 3 : 


E' désignant l'espérance mathématique relative aux tirages avec re- 
mise. (Résultat bien connu). 


IT - ETUDE DES SUITES DE PLANS DE SONDAGE - 


1/ - Les deux points de vue : 
ST ALP PRE 

Au lieu d'envisager, comme d'habitude, des tirages successifs 
dans l'urne, au besoin jusqu'à épuisement (n = v), - on pourra, en sens 
inverse, partir d'une urne parfaitement connue (v = n) c'est-à-dire to- 
talement vide (les boules étant placées dans une urne auxiliaire) et ex- 
traire de cette dernière, par tirage au sort, successivement 

ben) 2. (El) Vaboules, 


qu'on replongera dans l'urne primitive. 


2/ - Suite de plans de sondage : notion d'information. 


Cas des sondages exhaustifs. 
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On peut symboliser la famille de sondages en question par des 
points consécutifs numérotés 0, 1, 2,..., n,...v sur un axe D,1e 
point n représentant l'ensemble des sondages exhaustifs d'effectif n 
(pour la population et la variable X considérées). 


Une échelle arithmétique sur l'axe D peut d'abord être employée 


0 1 2 3 n VE v 


Si l'on se déplace de (0) vers (v), on connaît de mieux en mieux 
l'urne; (0) représente l'absence totale de renseignements et (v) figure 
la connaissance parfaite de l'univers. (On désignera plutôt un tel point 
par un (U). 


On peut dire qu'on ‘'gagne de l'information" en passant de (n) à 
(n +1) et qu'on "perd de l'information" en passant denà(n - 1). 

Ilserait intéressant que la distance (vn) sur l'axe D représentât 
la perte d'information résultant du fait qu'on a limité les observations 
à n boules sur v(en ce qui concerne la connaissance de l'urne U}). A 
cet égard l'échelle arithmétique ne nous paraît pas satisfaisante quan- 
titativement; ilne serait pas conforme à notre concept d'information de 
dire qu'on perdla même quantité d'information chaque fois que l'effec- 
tif de l'échantillon diminue d'une unité. Bien au contraire notre senti- 
ment est que.: 


- connaître toutes les boules, ou toutes sauf une, n'est pas 
très différent ; 


- connaître une boule, ou n'en connaître aucune, est très 
différent; 


- connaître deux boules au lieu d'une constitue un gain d'in- 
formation bien plus grand que connaître v boules au lieu de v - 1. 


En revanche portons sur un axe D les valeurs pour n =0, 1,2, 
sv otiode-lvariance derx 


c'est-à-dire : 


RE re À 
ls ee (° à) 
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Le point (0) est rejeté à l'infini, tandis que le point (v) est l'ori- 
gine des abscisses. Quandn croît, chaque pas fait vers la connaissance 
parfaite est bien inférieur au précédent. 


v v- Î v- 2 v- 3 2 1 0 
a +————— + ——— ee See see ee RE à 
U Axe D 


Ainsi notre intuition sera satisfaite si l'on choisit la variance 
D X pour mesurer la perte d'information imputable au sondage. Core 
possède une autre propriété. 


THEOREME - 


La variance Ÿ X satisfait à la définition de l'information suivant 
l'axiomatique de Schützenberger (Sch. page 45). 


En effet, posons : 
p(v, n)=vX, 
symbole rappelant que n unités sur v sont connues; et montrons que : 
pr he J)ep(y n)=EP(n, n=)) 
où P a la même définition que p mais est aléatoire. 


Pour cela formons : 


: vo? 1 1 1 1 
Div. n=1)) "pi Dim E =. = Ne n 


et posons : 


P(n,n-j)= dr ( . 2) 
NME) n 
où s? désigne la variance d'un échantillon (exhaustif) de n boules : 
= S(x; - X)/n 
Le théorème découle immédiatement du Lemme 2 : 


E(ns?/n - 1) = vo?/v -1 
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3/ - Cas des sondages Bernoulliens. 


Le nombre n de tirages peut (théoriquement au moins) être pris 
aussi grand qu'on veut (et bien entendu dépasser v). 


Représentons par des points consécutifs sur l'axe D, les divers 
plans de sondage. Lorsque l'effectif n croît 


le point figuratif (n) part d'une position (1) et se rapproche constam- 
ment sans jamais y parvenir d'un point U figurant la connaissance par- 
faite de l'urne. 


Le point (n)a donc un point d'accumulation « et il n'est pas évi- 
dent que celui-ci doive coincider avec le point U figurant la connais- 
sance parfaite. 


Nous ferons par la suite le Postulat ® = U, c'est-à-dire que la 
perte d'information, par rapport à U, tend vers 0 quand n tend vers 
l'infini. 


4/-Accordentrefigurations des sondages exhaustif et bernoullien. 


Superposons les axes D relatifs à un sondage exhaustif et à 
un sondage bernoullien dans la même population. 


Il est évident que les deux points (1) doivent coïncider, puisque 
sondages bernoullien et exhaustif sont indiscernables tant qu'on netire 
qu'une boule. De même le point (v) de l'axe ‘'exhaustif'' doit coïncider 
avec le point Ü de l'axe bernoullien; et, avec le Postulat (w= U}), il 
coïncide avec le point w. 


En outre, il est intuitif que le tirage de la nèME€ boule apporte 
moins d'information en sondage bernoullien qu'en sondage exhaustif, 
ce qui doit se traduire par : 


distance n - 1,n distance nn - i,n 
sur D exhaustif sur D bernoullien 


Toutes ces conditions sont remplies si la perte d'information en 
sondage bernoullien est choisie égale à 


o2 


n 
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quand la perte en sondage exhaustif est elle-même (à effectif égal) 


Examinons toutefois ce qu'il advient de la formule de Schützen- 
berger relative aux quantités d'information. 


5/ - THEOREME - 


La variance VX en sondage bernoullien satisfait à la définition 
de l'information suivant l'axiomatique de Schützenberger. 


En effet, posons : 


0? 
' 
p'(v, n) = 


il vient 


Calculons ensuite 
Pr, n° 1) 


Soit s'? la variance des x: de l'échantillon tiré de taille n . Pour 
passer de là à l'échantillon d'effectif n - 1, il faut tirer au sort l'une 
des n boules et l'exclure, ce qui équivaut à conserver un échantillon 
exhaustif de (n - 1) boules; la perte d'information correspondante est 
donc: 

s'? n -(n - 1) s'? 


share Vo recire; done 


I1 faut enfin prendre l'espérance mathématique de s'?, la som- 
mation étant étendue à tous les échantillons bernoulliens d'effectif n. 
Appliquons la lemme 3, il vient : 


s'2 1 me > © 


En 10 Llne- 1) en n{n - 1) 
D'où 


Div en) Ep Mn) GP in ent) Cds 


282 PIERRE THIONET 


6/ - Extension à la variance de tout estimateur sans biais. 
Soit Z. et Z les estimateurs de & sur échantillons de tailles n et n' 


CANIN &{Z ) =T, RM oil 


Posons 
p{v, n)=6(Z,-0) 


2 
& (Zor E C) 


p(v,n') 


PR) = (2-22) 


où E désigne l'espérance mathématique de Z.: sur les échantillons de 
taille n' tirés au sort dans un certain échantillon de taille n. Il vient : 


p{v, n')-p(v, n)-8E[(Z, - Z,)] 
s6E {(Zr - ZLHZ, +2, -21)- (2% Z)h} 
=26[(Z, - &) E(Z, - Z)] 

qui est nul si Z,, est estimateur sans biais de Z,. 


E Z,, = Z, (quel que soit n, v > 


n 


n >n!) 
Cette condition renferme &Z,, = © et 6 Z, =t. 
7/ - Définition. 


Nous dirons alors que l'estimateur est uniformément sans biais. 
Alors : 


V2 et) 
est perte d'information (au sens de l'axiomatique de Schütz enberger). 


Remarque. 


In'estpas exclu que la relation de récurrence puisse être véri- 
fiée sous des conditions moins strictes, netn'ne prenant que certai- 
nes valeurs entières par exemple. 


Cas des estimations isomorphes. 


Si tetZ sont des expressions isomorphes(l){des x; de l'universet 
de l'échantillon), l'absence de biais est uniforme. 


(1) C'est-à-dire ont même expression analytique. 
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Exemples. 


X et X sont uniformément sans biais; de même vo?/v-1etnS?/n-1 


Exemple d'estimateur sans biais. 


Si on estime la moyenne d'une distribution symétrique par la 
médiane de l'échantillon (n et n' impairs), on a bien 


CLR OL 5 a 
mais on n'a pas en général 
EZ ie 2, 
et la variance VZ n'est pas une perte d'information. 


Exc eption. 


X=a, b, c,; doue, avec [= c, ce = -ca, cd =-cb, ca = 7 cb/2 
aveciv =tb:;n=3:nt= 1: on a1bien 


&(Z,- 0) (EZ, -Z,)= 


5 Ge 2 

d'où VZ,-VZ, =6(Z; -Z,) 
D'une manière générale on évitera de s'intéresser à des distri- 
butions trop particulières qui peuvent avoir des propriétés exception- 


nelles sans portée pratique. 


8/ - Cas de l'Estimation de la variance. 


Partant de la définition de o?, du Lemme 1 


2= Ÿ (ER 


ou mieux : 


2 
ve” = Y ) Gi = x) 7/2 = G(X: - x;)°/2 


+ de la population des x, X....x;...-.12,00n en déduit, la *super- 
population" des couples x;x;(i f j). 


L'ensemble des (i, j) étant décrit par le seul indice k 
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- 1 


on posera : 
Y, =(X- x;)°/2 
Tout ceci amène à deux définitions : 
(1) de la variance 0? 
volv-1-7= 2y/iV(eu)ai 
(2) de l'estimation S'° de vo?/v - 1: 
nSilnesheite Sy hin(n 1) 


avec ps _ 
&EY = y 


Variance de Ÿ. 


a) Cas des tirages bernoulliens 


Le calcul direct de VY (Réf. T3 par exemple) donne facilement: 


LL ii 2 0 
Mu n(n PTS NE n(n - 1) 


où u° est le moment des (x; - Safe 


%Y est donc la somme de deux composantes, qu'on peut repré- 
senter par des divisions sur deux axes : 
- l'une homothétique de VX (1, 1/2, 1/3, ... 1/n...) 
- l'autre nouvelle («, 1, 1/3, 1/6, 1/10, ... 2/n(n - 1)...) 


b) Cas des tirages exhaustifs (Réf. T.CR. 1, 1957). 


Cette variance a été déjà calculée par de nombreux auteurs, dont 
Tukey (Jour. Am. Stat. Assoc. 1950, p. 501 & Ann. Math. Stat. 1956, 
p.722), Chartier (Bull/”Inf. INSEE, Mars 1957p 1). 


Ces calculs se simplifient notablement si on a recours à la défi- 
nition suivante de la variance 


\ 2 
o?= Dee +) ja 
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v = | 2 


ou, pour abréger o? = Y(a-b?)/v - &(a - b) 


2 


et si, par ailleurs, on remarque que, de l'identité 


(a-b}‘{a-c)*+(b-c}(b-a) +(c-a){(c-b) =5[(a-b)'+(b-c)+(c-a)] 


1 
2 
il suit qu'on a : 


&[(a - b}’(a - c)] = > (a -b) 


Dénombrons alors les termes du développement de (02)? = o* 


Termes en (a -b) : Ft bac) : (a-b)(c-d)ÿ 
M = "tn M 4 2 M(v - 2) + M LE 


et, en remplaçant v par n et M par m, on passera du développement 
de [ Y(a - b)°]” à celui de [S(a - b)°]° = (n°S°). D'où les deuxformules 


vote LD éça - pr + OCT 6 ja - bite - dŸ] 
2 
Eln?S2 ne 1) &(a - b) + 2-29 &[(a -b}(c -d)] 


b. 1) En éliminant &[(a - b}’(c - d)?] entre ces formules et 
en écrivant : 


EE 
Ad (HE) = 2 nus) 
in 


Ill 


21 ny + 30) 
d'où 
tof ÿ à 
&(a-b) =—{(# OM PR 
V 
en considérant par ailleurs les n valeurs z: : 
ANS M Ft) 


dont la moyenne Z,= S(X. = u,)?/n estime & = o? avecune variance éga- 
le à : 
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2 
— œ v-n 
CAE 
n v- 1 
PNR RE 4 | 
avec OPEN ea 


on retrouve l'expression habituelle de VY 


% Y = AVZ+Bo* 


avec re ___ v(v=-1) | 
(v- 2)(v - 3) (n=1){(v.=r) 


b. 2) Il est plus intéressant d'écrire : 
2 ( M éta- bb) +2 ASE es] ete-bYe-af 
done Pen 1e 


VY - ete - étawe-2>| G- 1) +1 3 SI@-bŸ(c- os TT | 


On retrouve deux composantes, avec (lorsque n varie) les mê- 
mes divisions que dans le cas Bernoullien (qui correspond à v infini). 
On verra que c'est là un phénomène général. 


Remarque. 


YY n'est défini que si n > 2. On dira que c'est une perte d'infor- 
mation d'ordre 2. 


9/ - Extension au cas de plusieurs variables. 


a) Considérons X et X' deux variables quelconques (et leur 
distribution sur les unités de sondage (boules) avec : 


= 1 = ! 
GX, nu, 6 x; H° 


“| 
1 


= Sx;/n, X' 


[l 


S x! /n 
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On a formellement : 


ORNE ne 
E 


en posant : 


8tx, = n,+ txt - u})jf 


&(x, - u) +2t8{(x; - u,M(x! - u!)] +t*&(x! - u!) 


On dira que Ÿ estune perte d'information correspondant à l'esti- 
mation simultanée de , et u! par l'échantillon d'effectif n. 


b) Le terme rectangle de a possède (comme « lui-même et 


chacun des termes carrés) deux expressions, avec les écarts aux 
moyennes d'une part, avec les écarts (x;- x;) et (x! - x!) d'autre part 


2t6(x;, - nJ(x ul) = a -6(x,- nu) - Ex! - Ÿ 


2 


v 2 


1 < | Le + @ | 
dec Duc iles2 2" (xt ax 
ij 


Il en résulte pour la covariance de x; et x! des Lemmes analo- 
gues à ceux de la variance. 


c) Comparons les deux formules (où les x; et x! sont sup- 
posés essentiellement positifs), 


(x r tr. EXT 


étxix,)- mul = SN) - (VE) 


La covariance est donc une perte d'information pour l'estimation 


de V pue À 


&(x; - u,)(x} - hi) 


d) On peut employer V(Z +tZ')ou V(uZ + vZ' + wZ'')com- 
me perte d'information dans des cas beaucoup plus généraux : estima- 
teurs sans biais Z Z'Z''... de caractéristiques &,(', ["..... d'une 
distribution à une ou plusieurs variables. 


Exemple. 


Estimation simultanée des deux premiers moments : 
SU EMARE ONE RUES E CRC REC CRE EE Re 


avec = &l{(x° FPE u,)T 
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so = Ex) +216x- UNS - LH) POCHES 


10/ - Urne avec plus de deux couleurs de boules. 


Lorsqu'onestime les proportions (p q r)d'unités de sondage pos- 
sédant les caractères & @ C s'excluant mutuellement (p +q+r = 1), il 
serait utile de savoir calculer une “distance'' entre les points (pqr) et 
(PQR) dans le plan d'équation 


HAVE ZE 
Pour cela on formera : 


V 


V(uP+vQ +wkR) 
= Q[(u - w)P +(v - w)Q] 


EE [(u - w)p(1 - p)+(v- w)”a(1-q)]l+2(u- Wh(v-w) (&PQ-pq}] 


Mais on sait que : 


v € n 
=. Mie 


: v 1 1 
D'oùus V = EAN [p(i-p)-2tpq+tq(1-a)] È = . 


V 
(avec t = v - w/u - w). 
11/ - Extension à certaines estimations biaisées. 


Moyennes généralisées. 


À chaque unité i de la population, faisons correspondre y:, 
y: = Î(x:), f(x) désignant une fonction connue arbitraire. 


Utilisons le concept de moyenne généralisée (GINI)( 1), soit (x°) 


L 


la moyenne généralisée des x; relativement à la fonction f, définie par 
l'équation : 


f(x*)=Y ou x°=f (y) 


L'échantillon fournit une estimation (X*) de (x°), définie par 
l'équation : 
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Chbaett smmen fleur Hi 
orne (1 ) 


est la perte d'information relative à l'estimation de y par Y, autrement 
dit : de Ÿ f(x.)/v par S f(x.)/n. 


Trois questions se posent : 
- Peut-on dire également que c'est la perte d'information 
relative à l'estimation de x* par X* ? 


- Ne doit-on au contraire considérer que Ÿ X* est la perte 
d'information relative à l'estimation de x* par X* ? 


- N'existe-t-il donc pas finalement plusieurs façons distinc- 
tes de représenter ladite perte d'information ? 


Elles tiennent au fait que X* n'est pas un estimateur sans biais 
de x* quand & Y - y = 0, sauf si f est linéaire. 


12/ - Cas des estimateurs biaisés en général. 


Le biais étant b = Z -Cc 


Liz Nr dede ZA 


il vient : REZ 


CZ) bé 2b. 


Lorsque l'effectif varie, on voit facilement que ni &6Z, ni 
6(Z - ar ne satisfont à la relation de récurrence des informations. 
&GZ? - {? conviendrait manifestement, mais rien ne prouve que ce soit 
là une perte d'information imputable à l'estimateur Z, pour l'estima- 
tion dec (voir $ II Ch.IV). 


Si l'on convient de mesurer la perte d'information relative à X* 
par VY, onn'est pas en possession d'une expression analogue pour les 
autres estimations biaisées (souvent beaucoup plus usuelles). 


Il est courant dans la pratique des sondages - lorsque v est de 
l'ordre du millionet n de l'ordre du millier - que VZ et b° ne diffèrent 
pratiquement pas d'infiniment petits de la forme 


k/n et k/n°; 


de sorte que b? est négligeable à côté deZ. En confondant x* et&X*° 
ou tet6Z...,vX"ouvZ est approximativement perte d'information. 
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On pourrait se demander s'il n'y a pas lieu de n'attacher la no- 
tion de perte d'information qu'aux estimateurs sans biais, vu que les 
estimateurs ‘'biaisés'' ne sont justement employés que dans les cas où 
on juge b? négligeable à côté de VX*. On reviendra sur cette question 
au $II, Ch.IV. 


13/ - Cas d'une population infiniment nombreuse. 


Revenons sur le cas des sondages avec remise ($3°, 4°, 5°) et 
supposons v infiniment grand: rien ne s'en trouvera changé. En parti- 
culier : La variable x peut avoir une loi de distribution telle que 0° 
n'existe pas, V X étant infiniment grand. Alors la notion de perte d'in- 
formation semble en défaut. 


On peut y voir une raison de ne pas accepter la présente théorie. 
On cherchera alors à substituer à VZ = E(Z - &)’ une expression dela 
forme EW(Z, &) quirestefinie cette fois. Mais on verra au chapitreIV 
que pareille expression n'a aucune raison d'être une information au 
sens de Schüutzenberger; si une même forme de W doit rester valable 
pour toutes les lois de distribution,et si Z estime & sans biais, on 
verra que (sous certaines conditions de régularité pour W}), (Z -C Ÿ 
est à un facteur près la seule forme possible pour W. 


Ceci n'exclut pas l'emploi de pertes d'information n'ayant pas la 
forme EW (comme on va le voir au chapitre Il), non plus d'ailleurs que 
le recours à des expressions E W, où la forme même de W dépendrait 
étroitement de la loi de distribution. 


Il semble plus logique d'appeler formellement V Z perte d'infor- 
mation, alors même que 5° serait infini, toutes les pertes (d'ordre I) 
étant définies (à une similitude près)par la division 1 1 1 


SU RD RE RO el 


S v 


CHAPITRE | 


LES PERTES D'INFORMATION 
DANS LE CAS DE L'URNE DE BERNOULLI !! 


I - DEFINITION GENERALE DE LA PERTE EN SONDAGE 
EXHAUSTIF - 


Les variables X Y... prenant les valeurs (x; y,...) sur la ‘'bou- 
le" i de l'urne (v) d'effectif v, considérons un échantillon de n boules 
(tirées au sort sans remise avec d'égales probabilités) et une expres- 
sion p(v, n) des x, (de l'univers et de l'échantillon), 


nulle si n =v 
définie positive pour n entier v>n>r 
strictement croissante avec (v-n). 
On dira de toute expression p(v, n) qu'elle représente une perte 
d'information due au fait qu'on ne connaît de l'urne (v) que l'échantillon 
(n), sielleest liée à p(v, n') correspondant à l'échantillon (n'}, n>n!', 


et à P(n, n') c'est-à-dire à la perte aléatoire d'information sur l'urne 
aléatoire (n) avec l'échantillon (n')}, par la relation de récurrence : 


p(v, n')}=p(v, n)+6 P(n, n') 


Remarque. 

I1 s'en suit que la variance V X est une perte d'information à ce 
nouveau point de vue (plus large que celui du chapitre I puisqu'il ne 
comporte explicitement aucune estimation d'un & par un certain Z). 


Il - LES PERTES D'INFORMATION D'ORDRE 1 - 


1/ - Partons de 


PME ITiCHR:2; 
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relation établie au chapitre I. 
I1 résulte de la définition non courante de 0? et de S? 


o?2 DS 2). S° = S{x; - x) /n° 


1 2. 
que la relation de récurrence Se conserve si l'on y remplace 2 (x) 


par toute fonction non négative symétrique f(x;, X;) telle que f(x;, x;) 
soit nul. 


D'où, pour que p(v, n) soit une perte d'information il suffit que : 


(Théorème) 
f(x, ren 
pes, n) = 2 3 x) (EN 
= V n ÿ 
1 1 
LE G&f(x,, X;) e ( à :) 
: Le E î ’ avec y = 6f(x;, x;) 
n 12 
Rens 


Dans le cas particulier de 
= (gx) - gx) Ÿ 
cette nouvelle perte d'information n'est autre que VY , avec 
y = g(x) 


mais une interprétation aussi élémentaire fait défaut dans le cas où 
par exemple 


fisig (ete 2) 


2/ - Notion d'ordre d'une perte d'information. 


Dans le cas de l'estimation de la moyenne x de l'urne par celle 
X de l'échantillon, un échantillon formé d'une seule boule apporte déjà 
des renseignements. Aussi dirons -nous que VX,ainsi que les expressions 


p(v, n) = À a : 


avec Y 


(l 
@ 

= 
» 


EE 
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sont des pertes d'information du ler ordre. 


Les variances de l'estimation sans biais de o? ou du coefficient 
de corrélation, par exemple, sont des pertes d'information, mais ne 
sont pas d'ordre 1. 


3/ - Représentation graphique des pertes d'ordre 1. 


Sion porte, sur un axe vX ou toute autre perte p(v, n) ainsi dé- 
finie, on obtient un ‘'axe d'information" (A) où, pour une urne (v)don- 
née, les échantillons des diverses tailles sont figurés par une division. 
Ces divisions sont semblables entre elles, quelles que soient la varia- 
ble X, la fonctionfet la taille v de l'urne. A l'échelle près, il n'existe 
donc qu'un axe (4). 


4/ - Extension de la notion de perte d'ordre 1. 
THEOREME - 


Si, par hypothèse, p(v, 1) est de la forme 8(v) &f(x;, x;), on a 
nécessairement : 


plv, n) = [6(v)- 6(n)] &f(x,, x;) 
En effet à : 
Div l)=0{(v). ut 
correspond : 
PI Mile b (vel) sf 
etc 


Passons de l'état : v boules connues à l'état : 1 boule connue. On 
peut le faire : 


- soit d'un seul coup (perte d'information p(v, 1); 


- soit en deux temps en passant par l'état : (v - 1) boules 
connues, d'où une perte d'information p(v, v - 1) suivie de la perte de 
(v - 2) boules sur (v - 1), c'est-à-dire espérance mathématique de la 


perte d'information 
oeil À 


relative à une urne d'effectif (v - 1) mais de composition aléatoire. 
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pD'ous 
plv, 1)=plv, v - 1) +&P(v - 1, 1) 
c'est-à-dire : 
po, si} pri) él (vi Hi) 


= (6(vL= 6e Ir 


Pour passer du cas où n = v - 1 au cas général où n est quelcon- 
que, il suffit de donner à l'échantillon des effectifs décroissants 
Cl) EP) etc. (nc) (n-eb)n 


Les pertes d'information s'ajoutent, et il vient : 


plv, n) = [8(v) -6(n)].y 


Remarque. 


Pour n = 1, on doit avoir nécessairement 8(1) = O. 


VV — 


; on retrouve les pertes précé- 


En particulier : avec 8(v) 


dentes : 


8(v) -68(n) - 2 = : 


Toute fonction positive décroissante 8(v) fournit des pertes d'in- 
formation, qui ne diffèrent pas essentiellement entre elles et seront 
dites encore d'ordre 1, à condition que 8(v) soit définie pour toute va- 
leur entière de v, avec 8(1) = O. 


On remarquera pourtant que : 


1 2 \ 1 & NI 
Ë 1 Jer -2 D f(x. x.) 2 2 f(x, X) = Gt 


i>)j j 


&' désignant l'espérance mathématique étendue à toutes les combinai- 


sons 2 à 2 avec répétition des x;x,, c'est-à-dire aux échantillons ber- 
noulliens de deux boules. 


On verra ($ V) que c'est la nécessité d'un raccord avec les son- 
dages bernoulliens qui détermine les fonctions 8 et, pour r = 1,conduit 


1 
à prendre QERLE 
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IT - LES PERTES D'INFORMATION D'ORDRE 2 - 


1/ - Exemple de perte du 2ème ordre. 


Avec un échantillon de taille n > 2, onpeutestimer & = vo?/v -1, 
par Z = ns #[n - 1; on sait ue fe V2 comme combinaison linéaire 7. 


&(x; x) et e[(x, x) (Lex) à savoir : 
ge (ns?) PERDUE (m2) 8) & (a bje(e =1d) 
n’(n - 1} n 2 n(n - 1) 4 


_ 4 - lela-b)" , (v-2K{v-8) g(a-bY. (ce -dY 
VIS V 2 v(v- 1) 4 


PME (1 , Ness = : Te 
ÿ 2 n(n-1) v(v-1) 2 


Poeme lire rule 
f je “haine ae __ de ll 


vZ est une perte d'information qui sera dite du 2ème ordre. C'est la 
somme d'une perte du ler ordre et d'une du 2ème ordre : (car ni 
(2n -3)/n(n - 1), ni 1/n(n - 1) ne sont définis pour n < 2). 


2/ - Obtention de pertes plus générales. 
Si l'on substitue f(x,, x.) à (x, - x) avec:f{(x,, x;)=f(x;, x;) > 0, 
f(x;, x;) = 0, le transformé de ?Z esttoujours une perte d'information 


1 1 1 
1 1 eee 0 —————— — 
d'ordre 2, puisque de la forme A e . HE re Ten. 


3/ - Représentation graphique. 


On considèrera deux vecteurs colinéaires, représentant le ter- 
me en 1/n et le terme en 1/n{(n-1), et par conséquent deux axes A1 et 
12, portant respectivement les divisions en 1/n et 1/n(n-1)}, leurs 
échelles dépendant de la variable X et leurs origines de la taille v de 


l'urne. 


4/ - Les casoùdn=3etn=2. 


Allant de soi avec n >4, le calcul de VZ serait en défaut pour 
n = 3 ou 2, si l'on ne raisonnait par continuité. 


Pourme-#; 1i1wient.: 


lim &(a-b)(c-d) = =. [(a-bŸ{(a-c)° + (b-c)/(b-a) +(c-a)(c-b)] 
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(en faisant tendre d vers a, bou c avec des probabilités 118) 
Etablissons l'identité : 
- 1 y 4 
(a-b)/{a-c)*+ (b-c){b-a)” + (c-a){c-b) = 4 [(a-b) +(b-c) +(c-a) ] 


Démonstration. 


Ill 
2 


y 
Posons a=a-b;B=b-c; y=c-aetdéveloppons(a+PB+y) 
Il vient : 


do +pt+y +(4+ 2x2 + 22 +y2a2) 


il 
© 


+ (8 + 4) a/py + B'ya +y/ap)+4 [ap +y) + By + a) +y/(a +B)] 
Mais B+ y = -a etc 

a?By+... =apy (a+ B+y)= 0 
Il reste ainsi : 


(1-4) (a%+ pt+ y) + 6(0 p? + p?y2+ ya) =0 


D'où a? p? + y°+ rats plat +6" + y) 
d'où lim &(a - b){c - d)}=6&(a - b)‘ 


Pour n = 2 : cette dernière identité conserve un sens. 


5/ - Conclusion. 


YZ est proportionnelle à &(a - b)* pour n=3etn=2,ceque 
le calcul direct montre (bien entendu) en faisant le changement 
de population : 


MST sie MER) 


nl ou 5 


On estime vo”/v- 1 par la moyenne Y des y échantillon, ce qui 
permet de trouver pour n =2 


s Si on 5 2 (RE x 
(= EE) = ————— 


2v v 2 


La variance s'en déduit en retranchant o*. 


Pour n = 3, on trouve de même facilement : 
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Ve 1 8 L V — 2 (x: E x) 
e ) &(Y?) = _ e J 


Pour les pertes plus générales, il n'en est pas ainsi; on a seule- 
ment : 


lim &f[f(a, b)f(c, d)] = 2 &l[f(a, b)f(a, c)] 


les composantes en f(a, b)” et f(a, b)f(a, c) ne fusionnant pas; car on 
ne peut transposer l'identité : 


(a-b){a-c)° + (b-c){b-a) + (c-a)/(c-b) = 2 [{a-b)'+(b-c) +(c-a)] 
Mais néanmoins les pertes sont définies jusqu'à n = 2 inclus. 

IV - LES PERTES D'INFORMATION D'ORDRE QUELCONQUE r - 
1/ - THEOREME 1 - 


Si p(v, n) est défini pour n >r, etsip(v, r)est dela forme 8(v).y 
où 8(v) croît avec v à partir de 8(r) = 0, on a nécessairement : 


p(v, n) = [8 (v) 5 8(n)]y, 


lorsque l'expression C, isomorphe de y pour l'échantillon (y 
étant définie sur l'univers), satisfait à la relation : 


E&CE=r 


Démonstration. 


Refaire le calcul du $I ci-dessus. 


Exemple. 
y = él(a - bp}. (ce di avec n > 4 et passage à la limite pour n=3 
et 2. 


2/ - I1 est évident que : 


THEOREME 2 - 


- Si p est une perte d'information d'ordre r, il en est de 
même de ÀAp, À étant une constante. 


- Si pet p' sont des pertes d'information d'ordres respec- 
tifs retr', r >r',(p +q) est une perte d'information d'ordre r. 


- Toute combinaison linéaire de pertes d'information est 
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une perte d'information; et son ordre est le plus grand des ordres des 
composantes. Toutefois, si certains coefficients sont négatifs, il est 
nécessaire que : 


- Jadite combinaison linéaire ne devienne pas négative; 


- les termes de rang le plus élevé ne se détruisent. 
pas. 


Réciproque du théorème 2. 


On verra (SIIL du Ch.IV) que, pour des plans de sondage très 
généraux (dont fait partie l'urne de Bernoulli) les pertes d'information . 
sont nécessairement de la forme 

» ALT (vw) - 8;;(n:) } Yi; 
pp 

3/ - Sur quelques difficultés relatives à l'ordre d'une perte 
d'information. 1 


a) Ilest clair que l'ordre est déterminé par la nature de la 
fonction 8(v); mais l'expressionC elle-mêment'est définie qu'autant que 
net v ne descendent pas en-dessous d'une limite s qui ne coïncide pas 
nécessairement avec r. 


Ainsi (a - b)/(c - d)ÿ correspondait à s = 4. Par continuité, on. 
est passé de là à n=3, puis n = 2; étant entendu que 8(n) seraitinfini 


si l'on allait jusqu'à n = 1 (donc r = 2). 


b) y = &l(a - b}’{a - c)° +(b - c)(b - a) +(c - a) {c - b}°] 


est en réalité (on l'a vu) : y = ; &(a - b)': de même 


&i(a - bla - ce) F(b.- e{b= arte ma) 2) 


n'est autre que : 


car on a: 


(a-b) (a-c) + (b-c) (b-a) + (c-a) (c-b) = + [(a-b)° + (b-c) + (c-a)] 


De 


Considérons, au contraire, l'expression : 


[a-b|. [b-c|+ |b-c|. |[e-a| + |c-a|.|a-b| 
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Si l'on suppose à > b > c, elle n'est autre que : 
(a-c)+(a-b)(b-c) 


Ainsi la valeur de s n'est pas toujours évidente; tandis qu'aucun 
doute n'existe pour r, une fois la fonction 8 choisie. 


c) Mode d'obtention des expressions C et y ci-dessus. 
Considérons p valeurs de x (4, par exemple) obtenues par tira- 


ge exhaustif, désignées par x, Xi... X,. 


Désignons par f(i, j... 1) une fonction positive symétrique des x;x; 
 X 

Désignons par &, l'espérance mathématique étendue aux combinaisons 
pèàpdes vboules; 


Désignons par E l'espérance mathématique étendue aux combinaisons 
p à p de (n) boules, elles-mêmes tirées exhaustivement dans 
lurne: 


Posons: y =6,1f(17:2. 1) et C.=E f(i j 41) Alorsil'est bien clair 
qu'on a : 


GC)ET 


du moins tantque n >p (et pour r < n <p, on obtient par continuité les 
limites des pertes d'information). 

d) Remarque. 

On était naturellement conduit à définir, outre les pertes d'in- 

formation du ler ordre, des pertes d'information : 

- du 2ème ordre, à base de fonctions f(i, j, k) 

- du 3ème ordre, à base de fonctions f(i, j, Kk, 1), 

Rec: 


Tenons-nous-en au 2ème ordre. Nous avions commencé comme 


SUITE 

On définissait f(i, j, k) - perte d'information lorsque deux des 
trois boules sont connues - comme une fonction positive symétrique 
de x; x,x,: 


Mot) (ele cel 


Il y a une chance sur trois pour que x; ne soit pas tiré, x; et xx 
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ayant été tirés; la perte d'information correspondante serait notée : 
(i; jk) = (à; kj) 


On aurait donc postulé que : 


si j = à LG je) + Ge ki) + (ke ij] 


Après quoi il était fort tentant de poser, pour un univers d'ef- ! 


fectif quelconque : 
y =&f(ijk) 


On aurait donc eu : 


- si x prend les valeurs a, b, c, (pour v = 3); 
a,b, c,d,(pour v = 4); 
y = f(abc) dans le ler cas; 


_ f(abc) + f(abd) + f(acd) + f(bcd) 


î dans le 2ème cas. 


Mais nous avons rencontré l'expression 
(ab (ee A) EME Te RETQ) PEAR ESS 


qui est une certaine perte d'information correspondant au cas où v=4, 
n = 2 et qu'on ne peut mettre sous la forme : 


f(abc) + f(abd) + f(acd) + f(bcd) 


La base de départ était donc trop étroite. 


e) Image géométrique. 


De même que, pour l'ordre 1, f(x;, x) représente une distance 
entre x; et x,, il est naturel de voir dans f(ijk) le demi-périmètre du 
triangle (ijk), qui se réduit à la distance f(ik) si i et j viennent se 
confondre. Ce serait une erreur de voir dans f(ijk) l'aire d'un trian- 


gle, dans f(ijkl) le volume d'un tétraèdre ; car cela conduirait 
à postuler : 


f(iik)=0 etc. 


L'image du périmètre incite pourtant à écrire : 
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f(ijk) = 5 L(iÿ) + (jk) + (ki)] 
avec 
Gÿ) + (jk) + (ki) (ij) = f(ijk), etc. 
) 3 


| 0o 


expressions de pertes du ler ordre, fallacieusement présentées sous 


un aspect du 2ème ordre, ce qui ferait croire que tout f(ijk) peut se 
mettre sous cette forme. 


V - TIRAGES AVEC REMISE DANS L'URNE - 


1/ - La définition de la perte, posée dans le cas des tirages ex- 
haustifs, se modifie avec les tirages bernoulliens comme suit; cette 
expression p'(v, n): 


- est définie positive pour nentier, n >r; 
- est strictement décroissante quand n croît; 
- a une limite nulle pour n infini, 
- satisfait à la relation de récurrence suivante : 
pi(ve n) “a p'(v, n + 1) = &'P(n st 15 n) 
où 6! désigne l'espérance en tirage bernoullien, 
et P la perte d'information dans le cas où l'on connaît n boules sur 
(n + 1) d'une urne (de composition aléatoire); P est calculée aux para- 
graphes ci-dessus. 
En substituant à P(n + 1, n) l'expression 
[e (n + 1) - 8(n)lC, 
avec &C = y, 8(r) = 0, 8(n) <6(n +1), il vient 
+00 
p'{v, n) = Ÿ [e(h +1) -6(h)}&'C, 
21h= Calculdeé 'C;: 
a) Pertes d'ordre 1. 


C, = Ef(x;, x;) 


&'C, =6'Ef=E&'f 
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d'où : v- 1 


p'(v, n) = (B(œw) - 8(n)] Y 


v = 1 


En particulier p'(v 1600) Y 


I1 faut se souvenir en outre que le tirage bernoullien est indis- 
cernable du tirage exhaustif pour n = 1: 


p'(v, 1) = p(v, 1) 
d'où — T 8(œ) = 8(v}), c'est-à-direfsi l'on pose 8(w) = 1] 
cf) el 2 
b) Cas général. 
THEOREME - 


Siles espérances mathématiques d'une statistique donnée Y pour 
des tirages avecet sans remise dans l'urne,&'Y et & Y ont des limites, 
qua nd l'effectif de l'urne tend vers l'infini, ces limites coïncident en 
général. 


En effet : Enn tirages équiprobables avec remise, la probabilité 


: Re 1 2 n - 1 : 
de tirer n boules distinctes est |1 - > 1 - 3). TS qui tend 


vers 1 si v tend vers l'infini, n restant constant. La probabilité des 
valeurs non nulles de (€'Y - &Y) tendvers zéro. Si l'on suppose que Y 
reste fini on voit que, si & Y tend vers une limite, & Y' tendra vers la 
même, et vice versa. 


Corollaire 1. 


Partant d'une infinité d'urnes(v) de même composition, et mé- 
langeant 1, 2, 3,... À... urnes identiques, tirant chaque fois n boules 
avec remise d'une part, sans remise de l'autre, - calculant &'Cù et 
&C,, avec 


CET en: 
alors, si a = 6'f est une constante en À, on a nécessairement 


limé&éC,=a (sous réserve que C, < w) 


v 
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Pour l'établir on notera que &'C, = &'(Ef) = E(&'f) 


Corollaire 2. 


Dans les mêmes conditions, si & C, a une limite a lorsque À tend 
vers l'infini et si f ne dépend pas dev, on a nécessairement : 


G&G'f = lim &C, (sous réserve que C, < ) 


Conséquence. 


De p(v, n)= s B(h + 1) - 8(h)] & C, = [e(v\ -6(n)ly 

on déduit D [8(h + 1) - e(h)] oi &C, = [8(w) - g(n)l'lim y 
D'où p'(v, n)= lim p(Av, n) = [6(w) -6(n)]a avec limy=a 
Exemple. 


Cab) ic, dla echf(b;-d)r(a;d)f(b/ c)ensupposant 
f <w, f ne dépend pas de v). 


a = 6'!'C 


n 


SH D) (Ce -0)] 


Ç , ( ( : &lfa, bif(e, d)] +5 &lf(a, bf(a, c)l 


Vv V V 
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Remplaçons v par À v etfaisonstendre À vers l'infini. C ne dépend 
pas de l'effectif de l'urne; de même &'C. 


Il reste : 
a = &'C = lim & [f(a, b)f(c, d)] 


3/ - Relation entre tirages bernoulliens et tirages exhaustifs. 


A effectif égal n pour l'échantillon, la perte p' est nécessaire- 
ment supérieure à p. 


p'iv, n}=p{v, n)>0, 
ou [8() - 6(n)]a- [8(v) -68(n)]y > 0 


Pour n=r, il n'y a pas lieu d'identifier p et p; car il n'est pas 
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exact que la perte d'information soit la même avec r unités suivant 
qu'on les sait distinctes ou non. 


I1 en résulte apparemment qu'on a plus de latitude dans le choix 
de la fonction 8 que pour l'ordre 1. 


En pratique, on a vu (au $ III) que, pour r = 2, avec 
2 2 
YA (a D} (Cd) 
l'expression suivante était la seule qui subsistât : 


AL 1 
RS teen) 


ce qui donne, pour obtenir une fonction 8(v) croissante, s'annulant avec 
v = 2, 


LE in 
Ar v(vreNt) 2v(v - 1) 


On est arrivé à pareille expression par des calculs de nombres 
de termes. Plus généralement, au moins chaque fois qu'on se limitera 
à des tirages équiprobables, le calcul de 8 fera intervenir l'analyse 
combinatoire, et sera une fraction rationnelle à coefficients entiers de 
variable v. 


Une fraction rationnelle, croissante (v >r), admettant le zéro 
(v= r)et les pôles v = r - 1, r -2,... O, et dont les 2 termes sont de 
degré minimum (r}), est 


1 L (VER): 


Se dé DER N RU : 
COEUIE VSD MOTTE ei v! 


Une fraction rationnelle dont les 2 termes ne sont pas de même 
degré ne convient pas (du moment qu'on postule l'existence de 8 ( æ). 


Toute fraction rationnelle admettant ces pôles peut être décom- 
posée en éléments simples du type précédent (plus un polynôme), soit : 


a, Dao (VAE à, 0: (vw) 0nra- 0 (v) 
(onle voiten identifiant). Le polynôme disparaît en supposant le numé- 


rateur de degré r. La fraction admet (v = r) pour zéro si les a; sont 
liés par 
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relation qui détermine a,.Finalement la forme générale de 8(v) pour 


l'ordre r est cette combinaison Ÿ a,0;(v) + a, dans les hypothèses du 


présent chapitre. 


Une théorie n'envisageant de tirages que dans une population in- 
finiment nombreuses (comme celle de Lindley, voir chapitre VIII) 
n'exclurait pas, en outre, la présence d'un polynôme, rendant infini 
8(w). 


4/ - Cas d'une population infiniment nombreuse. 


Iln'estpas exclu que lim y (v —> «) n'existe plus pour certaines 
distributions (voir n°13, Ch.I), suivant qu'on a choisi telle ou telle 
fonction f(i,j... );car des expressions uniformémentbornées/{f(i, j) | < M 
n'auraient guère d'intérêt pratique. 
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CHAPITRE lil 


LA PERTE D'INFORMATION 
AVEC LES PLANS DE SONDAGE QUELCONQUES 


I - DEFINITIONS FONDAMENTALES - 
A - DEFINITION D'UN PLAN DE SONDAGE. 


1/ - Structure de l'univers sondé. 


Le problème essentiel des sondages est l'évaluation de certaines 
caractéristiques d'une population donnée, composée d'éléments. 


Par exemple, pour une population humaine discontinue, l'élé- 
ment est l'être humain; on rencontre aussi des populations ‘continues, 
tel le territoire agricole, pour qui on peut envisager l'are, le mètre 
carré, le centimètre carré,... comme élément constitutif. 


Ces caractéristiques sont (le plus souvent) des grandeurs addi- 
tives, des rapports de grandeurs additives, etc. ce qui autorise les 
remaniements suivants. 


À cette population en quelque sorte brute, la théorie des sonda- 
ges substitue une population dotée d'une certaine structure.On sera 
déjà dans un cas très général en envisageant la structure suivante : 


Un premier découpage À, en segments portant les numéros : 1, 2, ... 
MODE Er 


Un second découpage B, à l'intérieur de chacun des segments précé- 
dents, d'où constitution de sous-segments numérotés : il, i2, 
... ij... ib, à l'intérieur du segment n'i; 


puis un troisième, un quatrième découpage, etc. pour aboutir en der- 
nier lieu aux éléments" de la population portant un numéro : i, 


CN ES are 


avec LEE E 
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CRC 


En pratique la structure est en partie imposée, en partie le ré- 
sultat du choix plus ou moins judicieux du statisticien. 


2/ - Cadre et structure de l'échantillonnage. 


Une fois fixée la structure de la population à sonder, on donne le 
cadre de l'échantillonnage; dans le cas très général décrit ci-dessus, 
cela signifiera qu'on détermine le nombre des segments, sous-seg- 
ments, ... éléments à conserver à l'échantillon, dans chacun des 
découpages. 


Pratiquement on se donne en général : 


- soit les effectifs n,, n,... des unités de sondages à 
conserver; 


- soit les fractions de sondage f,, f, ... proportions d'uni- 
tés de sondage à conserver. 


Les problèmes réels nécessitent qu'ondistingue une notion inter- 
médiaire entre la structure de la population et le cadre de l'échantillon; 
on conviendra de dire que : Fixer la structure de l'échantillon signifie 
décider quelles fractions de sondage sont égales à 1, les autres frac- 
tions restant à déterminer (entre 0 et 1, bornes exclues). 


Pour abréger, on parlera des effectifs ou de la taille d'un échan- 
tillon, pour désigner les paramètres n ou f restant à préciser lorsque 
la structure de l'échantillon est fixée. 


3/ - Terminologie courante. 
a) Si la fraction de sondage f, retenue pour le premier dé- 
coupage est égale à l'unité, la fraction f, étant inférieure à 1, le dé- 


coupage À est appelé stratification et chaque segment est appelé strate. 


Chaque parcelle résultant du découpage B est appelée unité pri- 
maire de sondage (U. P.S. en abrégé) ou unité du ler ordre. 


Si, au contraire, la fraction f: est inférieure à l'unité, c'est le 
découpage À qui procure les unités primaires de sondage. 
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b) Si (par exemple) f, étant inférieur à 1, fcest égalà 1, 
le découpage C est appelé sous-stratification; etchaque parcelle C est 
une sous-strate. 


Chaque parcelle résultant du découpage D est appelée unité de 
sondage du 2ème degré. 


Si, au contraire, la fraction f. est inférieure à 1, le découpage 


C donne naissance aux unités du 2ème degré. 


On définit de même les unités de sondage d'ordre 3, voire d'or- 
dre quelconque. 


Cette terminologie peu rationnelle s'explique par le fait que, 
dans la majorité des sondages réels, on a : 


1 1L2 ol 


4/ - Désignation de l'échantillon. 


Le cadre de l'échantillonnage étant fixé, - pour définir le plan 
d'échantillonnage il reste à se donner le mode de désignation de 
l'échantillon. 


On ne s'intéressera ici qu'aux échantillons tirésau sort(1), c'est- 
à-dire constitués comme suit : 


- unités de sondage du 1er ordre tirées au sort (à l'inté- 
rieur des strates); 


- unités de sondage du 2ème ordre tirées au sort parmi 
celles qui constituent les unités du ler ordre tirées (et à l'intérieur 
des sous-strates); 


- unités de sondage du 3ème ordre tirées au sort, etc. 


Il convient de préciser le mode de tirage au sort et ceci pour 
chaque degré de sondage. Les modes les plus courants sont : 


- sondage bernoullien (à la manière des boules de l'urne 
de Bernoulli) ou avec remise; 


- sondage exhaustif (sans remettre les boules tirées dans 


(1) On évite de parler d'un échantillon aléatoire, en raison du sens péjoratif de 
de cet adjectif en français courant. 
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- sondage bernoullien ou exhaustif avec probabilités iné- 
gales de tirage pour les diverses unités; 


- sondage équilibré (‘balanced sampling"); plus généra- 
lement letirage au sort peut être assorti de clauses restrictives, des- 


tinées à écarter l'apparition des cas extrêmes. 
5/ - Estimateurs et erreurs d'estimation. 
Soit x;,,..., la valeur que prend une variable X sur l'élément (ijk 


lb) 


Soit & tout paramètre à estimer sur un échantillon d'éléments (ijk 
6/ - Coût d'une enquête sur échantillon. 


Le coût des enquêtes est un facteur essentiel dans la pratiques 
Aussi introduit-on dans la théorie des sondages une fonction de coût 


(plus ou moins réaliste), où entrentles divers effectifs de l'échantillon j 


(à côté d'autres paramètres). 
B - BUT DE LA THEORIE DES SONDAGES. 


La théorie des sondages vise à permettre le choix du meilleur" 
plan de sondage et du meilleur estimateur, sous des conditions restric- 
tives telles que : pour un coût total donné, - ou pour certaines compo- 
santes du coût déterminées. 


1/ - À la recherche du concept de ‘meilleur plan de sondage". 


Toutes choses égales d'ailleurs, le meilleur plan de sondage 
serait celui qui fournit en moyenne les erreurs d'échantillonnage les 
plus faibles. A chaque © correspond, pour chaque Z, un écart (Z -&) 
erreur d'échantillonnage (ou d'estimation); on cherche à se faire une 
idée de l'ordre de grandeur de (Z - &) en définissant (et évaluant nu- 
mériquement) des indicateurs d'erreur (& Z). 


a) Z -& est le "biais" (bias) et représente l'erreur sys- 
tématique d'échantillonnage. 


Un estimateur présentant un biais important et inconnu (de façon 
à exclure toute correction de biais) serait inutile. 


b) Avec un biais nul ou très faible, on est assuré que l'es- 
timation sera "bien centrée''; mais il peut se faire qu'elle soit très 


(1) Voir par exemple T. 7. 


1). L'estimateur Z de & estune certaine fonction des x échantillons. 
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imprécise si des écarts Z -{ très importants ont des chances non né- 
gligeables de se produire. C'est pourquoi on définit des indicateurs de 
précision. 


Le plus utilisé est la variance VZ =68(Z - Z})’ou 6(Z-t) 
lorsque Z est sans biais. 


Concurremment avec la variance on emploie encore l'erreur- 
type, le coefficient de variation, l'erreur absolue moyenne (voir ci- 
dessus, $ I du Chap.l). 


Au moins depuis Neyman (1934), les plans de sondage optimum 


de la théorie classique sont définis de façon à rendre minimum certai- 
nes variances d'échantillonnage. (minimun lié). 


Nous dirons plus généralement que le meilleur plan de sondage 


est celui qui fait perdre le moins d'information (toutes choses égales 


d'ailleurs). 


2/ - Caractères généraux de la perte d'information. 


On convient d'exiger a priori d'une perte d'information les ca- 
ractères suivants : 


1) être nulle si l'échantillon coïncide avec la population; 
2) être infinie si l'échantillon a un effectif nul; 


3) être déterminée par le plan d'échantillonnage et le choix de 
l'estimateur,; 


4) être croissante lorsque, pour une structure donnée, la taille 
de l'échantillon décroît. 


La théorie des sondages définit déjà certains indicateurs d'er- 
reur attachés à un estimateur donné. 


I1 est naturel de se demander si ces indicateurs ({Z)ne mesu- 
rent pas également la perte d'information. 


Le biais, la variance, l'écart-type, le coefficient de variation, 
l'écart moyen présentent les quatre caractères ci-dessus. 


Un cinquième caractère va décider si ce sont ou non des pertes 
d'information. 


Donnons-nous la structure de l'échantillon, le mode de tirage et 


312 PIERRE THIONET 


l'estimateur. Ona une famille (F) de plans de sondage ne différant en- 
tre eux que par la taille. Considérons deux plans de sondage (1) et (2) 
tels que la taille de (2) soit inférieure à celle de (1); ce qui signifie que 
l'un au moins des effectifs de (2) est inférieur à celui de (1) correspon- 
dant et qu'aucun n'est supérieur. Ainsi l'indicateur d'erreur (6 Z:) est 
plus grand que l'indicateur ({Z.), mais la différence (&[Z,)-(6Z,)n'a 
pas elle-même, en général, de signification intrinsèque. 


Supposons qu'on ait, en outre, la relation de Chasles, plus 
précisément : 


(&Z)=(12,)+6,(2,2,) 


6, désignant l'espérance mathématique étendue à toutes les valeurs de 


l'aléatoire Z, substitué à &. Alors il est naturel de dire:({Z)estperte 
d'information relative à l'estimation de & (axiomatique de Schutzen- 
berger). 


Toutefois si, dans le cas de tirages dans une urne, avec 62 = C 


VZ = (&Z) possède les cinq caractères ci-dessus, cela cesse d'être 
vrai pour le plus banal des sondages à deux degrés. 


Cas d'un sondage à deux degrés et deux paramètres. 


Les unités étant tirées avec d'égales probabilités et exhaustive- 


ment, à chacun des degrés de sondage, -les tirages au second degré 
sont supposés indépendants du résultat au premier degré. 


Soit x, ; la valeur prise par la variable x sur l'unité (ij). 
Supposons qu'on ait : 1 £<i<u; 1 <j <v et qu'on tire au sort m 
unités primaires (sur u), puis n unités du second degré dans chaque 
unité primaire. 
On sait alors que la moyenne générale des unités du 2ème degré 
_— NN 
XI Æx;,/uv 
admet comme estimation sans biais 


Ki= S,5,x;,/mn 


dont la variance est : 


GRe DL VA TN 
CS AT PRE PAANT v u- Îi \m M 
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2 LAN RUN = 
avec or (x} Ji); x x,,/v 
A () 


Supposons que cette variance représente une perte d'informa- 
tion. Considérons la population formée par l'échantillondetaille (m,n) 
Tirons-en un échantillon de taille (m', n'). 


FOR re n'<n 


La perte d'information supplémentaire serait : 


PNR CAE Es VO TT Re 
MMM TNT n mena Er m 


Prenons l'espérance mathématique de cette expression pour tous 
les échantillons de taille (m, n). On a : 


En s2/ñn 4) =v0//5 - 1; C(ns met) nc nent 


— 2 = Z 
6 1 : S: — = es È — 
m'm v - | m'u ee va nil 


Ainsi la nouvelle perte (totale) d'information serait : 


Re edit le LR 
nv L'Iimro\nt n m \n — m' m 


au lieu de : 


Conclusion. 


Quand on change simultanément le nombre des unités primaires 
échantillon et celui des unités du 2ème degré, la variance X ne serait 
plus une perte d'information. 

JODSES DIR 4 SERRE RES EIRE RE UE 


Le vice de raisonnement est dans l'expression supposée de la 


perte d'information supplémentaire, qui découle d'une interprétation 
trop simpliste de la transformation 


(52) —(Z,Z,) 


L'interprétation correcte de (£ Z) deviendra très naturelle après 
les considérations géométriques qu'on trouvera au SIE 
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C - REMARQUE - LA THEORIE DE BASU. 


Basu (Ba 1, 1952; Ba 2, 1954) nous a précédé, et notre indica- 
teur (& Z) est proche parent de sa fonction de risque &8W. Nous diver- 
gerons vite, car : 


a) nous avons cherché quelles fonctions de risque étaient : 
solution de la relation de Chasles, devenue équation fonctionnelle (de 
Chasles),; 


b) nous avons recours à des considérations géométriques; 


c) finalement nous sommes obligé d'élargir la définition de 
Basu pour définir la perte d'information dans des cas pourtant fort 
courants. 


Basu a tels soucis de rigueur et de généralité que nous citerons 
in extenso le début de son premier article. 


Soit X, X,... X, un système de variables aléatoires dont on 
"sait que la fonction de distribution F(x,x,... x,) appartient à un cer- 
ltain sous-espace Q de l'espace de toutes les fonctions de distribution 
possibles F. Par exemple, il arrivera qu'on sache que les X sont des 
distributions identiques mais indépendantes, de sorte que Q est le 
l'sous-espace de toutes les fonctions de distribution de la forme : 


F = G(x;). G(x,)... G(x,) ARS, 
"G étant une quelconque fonction de distribution d'une seule variable. 


"Le problème de l'estimation ponctuelle est celui de l'estimation 
‘d'une certaine caractéristique 6 =u(F) de la population, [u(F) étant 
‘une fonctionnelle à valeurs réelles définie pour tout FEQ] à l'aide d'un 
l'estimateur t = t(x, x,... x,) où x; est une observation aléatoire de la 
"variable X;. 


"Désignons par W(t, F)pour tout REA fixé, les divers poids que 
le statisticien attache aux différentes valeurs de t en tant qu'estima- 
tions de u(F); et soit 


r(F/t) - W(t, FjdF (122) 


vR 


l'(où R est l'espace échantillon à n dimensions) la fonction de risque 
associée à l'estimateur t. 


; "Nous supposons qu'ilexiste des estimateurst pour lesquels l'in- 
tégrale (1.2) est convergent pour tout FEQ. 
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"Si r(F/t:) £r(F/t;)pourtout FE Q, le signe = étant valable pour 
au moins un F , alors on dit que t, est uniformément plus puissant 
11 

que t,. 


lL'estimateur t, peut être dit admissible s'il n'existe aucun es- 
ltimateur t uniformément plus puissant que 1e 


Dans le présent article nous nous limiterons aux seules fonc- 
l'tions poids qui sont des fonctions convexes (en décroissant) de t pour 
tout FE Q c'est-à-dire 2W{t, +t,/2, F)<Wi(t,, F)+W(t,, F) pour 
‘tous les t, ett,. Si le signe = ne vaut que pour t, =t,, on dira que la 
"fonction est strictement convexe'!. 


Tout ceci reste valable ici, mais pour un autre usage. Basu se 
donne a priori une forme d'estimateur (par exemple linéaire pour esti- 
mer la moyenne, quadratique pour estimer la variance), et il se donne 
aussi l'expression du ‘'risque'' élémentaire W. Considérant alors le 
risque" r = & W, il détermine les paramètres des estimateurs de telle 
sorte que le ‘'risque'' soit minimum. Comme nous l'avons dit ailleurs 
(Réf. T.11, 1956) lorsqu'on tire des boules d'une urne, avec 


W = (Z A ie 
le risque étant Lez = UZ tb. 
(où b désigne le biais), la politique du moindre risque ne conduit pas du 


tout à prendre b = 0 puis VZ minimum; elle conduit à prendre des esti- 
mateurs biaisés. 


Parexemple,-avec,: 
Ut =Xx, Z =cX, DZ = c2VX, y? = VX/#?, 
le moindre risque ne correspond pas à c = 1, mais à 
c = 1/(1 +y?) 


Lorsque y? est inconnu, Basu (suivant les méthodes de Wald) définit 
tout l'intervalle 0 < c < 1 comme fournissant les estimateurs unifor- 
mément les plus puissants. 


L'intérêt du cas banal ce = 1 n'apparaît que si l'on se souvient 
qu'en pratique y? est très petit, donc c très peu inférieur à I. 


ASS . . (A 
Ce résultat troublant disparaît si, au lieu de définir ainsi le ris- 
que"! trop arbitrairement, onlui impose d'être une perte d'information 
- au sens où Schutzenberger entend information. 
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Alors &6(Z -C ÿ par exemple n'est une perte d'information qu'avec 
un estimateur sans biais (uniformément); 6Z? - t? serait une perte 
d'information (sous des conditions plus larges) mais ce n'est plus un 
"risque'' au sens de Wald, c'est-à-dire qu'on n'a pas en général 


GZ? xt =eW->0 


(avec W > 0). Les estimations biaisées amènent donc une rupture en- 
tre le point de vue de Basu et le nôtre (voir Chapitres IV et VED): 


II - TOPOLOGIE DES SONDAGES - 
A - L'ESPACE TOPOLOGIQUE. 


L'intérêt (voire la nécessité) d'introduire des considérations de \; 
topologie dans les sondages n'apparaît que quand on dépasse le stade 
de l'urne unique, un peu avec le sondage stratifié, beaucoup avec le 
sondage à plusieurs degrés. On évoquera ici quelques treillis sans re- 
courir à aucun théorème de topologie. On a seulement voulu préciser 
où finissait le besoin d'un espace topologique, où commençait celui 
d'une métrique. 

1/ - Figuration des échantillons au moyen d'un arbrel 1), 

Ce n'est pas que le procédé classique (en théorie des Communi- 
cations) de figuration par un arbre, d'un phénomène aléatoire ne soit 
applicable aux sondages, - mais il devient vite assez lourd. Décrivons- 
le cependant dans le cas le plus simple : 


Exemple : Cas des tirages sans remise dans une urne d'effectif v. 


Un point figure la connaissance complète de l'urne (urne vidée). 
De ce point partent v branches aboutissant à v points dont chacun re- 
présente un échantillon d'effectif v- 1. 


- chaque branche se ramifieen v-1 sous-branches, qui se 
rejoignent deux par deux, en v(v - 1)/2 points représentant les échan- 
tillons d'effectif v- 2; 


- chaque sous-branche se ramifie en v-2 rameaux conver- 


geant trois par trois, etc. 


On arrive ainsi à Ce point (sondages d'effectifn = 2), d'où par- 
tent deux rameaux; ceux-ci se rejoignent par ( v- 1) à la fois en v points 
figurant les échantillons d'effectif n = 1. 


(1) En topologie, "arbre" a un sens moins large qu'ici;''graphe!' serait trop général. 
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On observera que les échantillons d'effectif 0 ne figurent pas sur 
l'arbre; ils n'apportent aucune ‘'information''; mais il arrivera que les 
échantillons d'effectif 1, 2, ... ne renseignent pas non plus sur tel 
aspect de la population sondée qui justement nous intéresse; par exem- 
ple un échantillon d'effectif n = 1,ne permet pas d'estimer la variance. 


Remarque. 


On peut également définir ‘l'arbre dans l'autre sens, à partir 
dev échantillons d'effectif 1, - donnant v(v- 1)/2 échantillons d'effec- 
tif 2, etc. si les tirages sont exhaustifs, - ou v? échantillons d'effectif 
2, etc. siles tirages sont bernoulliens (auquelcas l'arbre.ne se refer- 
me jamais). 


2/ - Figuration (topologique) des tirages dans une urne. 


On va symboliser l'arbre du n°1 ci-dessus sur un axe d'in- 
formation. 


Soit v l'effectif de l'urne, n l'effectif de l'échantillon; on peut 
représenter par une suite de points consécutifs (n) sur un demi-axe, 
les. sondages d'effectif 1, 2, ... n ... 


Le point (v) représentant la connaissance parfaite de l'urne sera 
pris comme origine du demi-axe. 


Il peut être commode de distinguer un point (O0) représentant 
l'absence d'échantillon. On peut le supposer rejeté à l'infini. 


En faisant tendre v vers l'infini, on figure le cas d'une popula- 
tion de baseïinfinie. Les tirages avec remise serontfigurés de même. 
Enfin il n'a pas été spécifié que les tirages étaient équiprobables ou 
non, et les tirages (bernoulliens) à probabilités inégales sont figurés 
par le même axe. | 


3/ - Représentation topologique d'un plan de sondage. 


Etant donné la population découpée en strates, unités de sonda- 
ges, etc., autrement dit une structure de sondage, un plan de sondage 
appartenant à cette famille de sondages se définit en fixant un certain 
nombre de paramètres : soit effectifs de l'échantillon, soit fractions 
de sondage. Chaque plan de sondage de la famille étant représenté par 
un point d'un espace topologique, ce point occupe les divers som- 
mets d'un treillis lorsqu'on donne aux paramètres toutes les valeurs 
admissibles. 


Quant aux échantillons eux-mêmes, ils seraient représentés par 
l'arbre; maiscelui-cisera refermé sur son axe, chaque point ou som- 
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met du treillis figurant tous les échantillons qu'un même plan de son- 
dage peut procurer. 


Une fois définis les points de cet espace, les autres éléments 
essentiels en sont les droites ou ''géodésiques". Mais par deux points 
du treillis’ne passe pas nécessairement une droite (et une seule); et 


nous préférons axes ou génératrices à géodésiques. 


L'existence d'un ‘'côté'"" ou segment entre deux points du treillis | 


est un fait concret; elle signifie qu'on passe du plan de sondage 7au 
plan de sondage +' par une opération matérielle de tirage au sort (per- 
tes d'une ou plusieurs unités de sondage). En revanche le problème est 
de savoir si 3 points (et davantage) du treillis sont ou non alignés sur . 


une même génératrice. 


Il est naturel de le résoudre en introduisant sur le treillis une 
métrique, qui est l'''information'"(1) 


La distance entre deuxpoints étantainsi définie, l'alignement des 
3 points À B C s'obtient en écrivant 


AB + BC = AC 


Mais on peut objecter que les axes du treillis dépendent alors de | 
la métrique et peuvent changer quand on change de métrique. | 


Une autre difficulté est l'existence de certains triangles ABC sur 
le treillis, la distance AC étant alors égale à AB + BC sans qu'il y ait 
alignement. 


Exemple de triangle sur le treillis. 


Considérons un sondage stratifié avec deux strates d'effectifs 
(v,, v,). Par exemple v, = 20, VE 100. Au grillage relatif au sondage 
(n;, n,) se superpose un demi-axe relatif aux 20 sondages à fractions 
sondées égales f, soit : 


f= 11/2010 10,3/201/5m7/2m ere. 
An ren = 02 LG 2 RS 0 67 %etC: 


concernant les couples (n,, n,) suivants : 


(1) L'information est une ''valuation de treillis", Schützenberger, Thèse, p.40. 
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(Lo) MO0)(S;-45)(4520):(5:v25):(6, 80)etes 
On a donc par exemple le ‘'triangle'' suivant : 
(8, 19) 0x) (5 AO)= (xt); (2, 10) = (x) 
C'est pourquoi on prendra les précautions suivantes : 


a) Définition des arêtes telle qu'iln'existe plus de triangles. 


On figurera par une arête du treillis tout tirage dans une seule 
urne, opération faisant passer d'un sommet à un autre, d'un plan de 
sondage à un autre de taille inférieure. Il est clair qu'on peut toujours 
(et au moins d'une façon) cheminer sur les arêtes, de l'origine (point 


= 


figurant la population prise en totalité) à tout sommet du treillis. 


b) Définition d'axes d'information invariants si la métrique 

change. 
Par définition sont alignés les points représentant les plans de 
sondage (v, v- 1, v-2, v- 3...) tels qu'on expulse d'une urne don- 
née (0, 1, 2, 3,...)unités de sondage, toutes choses égales d'ailleurs. 


Ceci revient à dire que, quelle que soit la perte d'information, 
les plans de sondage, qui sont des tirages dans une urne unique, sont 
figurés par un axe. 


Les plans de sondage (si compliqués soient-ils) étant des com- 
binaisons de tirages dans uneurne, on possède donc une définition ‘'opé- 
rationnelle'' de certains axes du treillis; l'existence d'autres axes reste 
possible. 


4/ - Exemples de treillis de sondage. 


a) Cas des sondages stratifiés (avec 2 strates seulement 
et 2 paramètres). 


Le grillage (n,, n,) représente (on l'a vu) un sondage à 2 strates 
(fractions sondées distinctes); le point U( v,, v, ) représente l'état de 
connaissance parfaite des urnes. Les points représentant les sondages 
à fractions sondées égales f auraient en outre été alignés sur un demi- 
axe d'origine U; maisil s'agiten fait d'un deuxième treillis distinct du 
premier, correspondant à un estimateur de x dépendant d'un seul para- 


mètre f. 


En convenant que les arêtes n'existent qu'avec les pertes d'une 
boule à la fois,nous perdons le deuxième treillis et les triangles qu'il 


dessinait avec le grillage. 
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11 
La convention faite sur les axes nous montre que tous les bar- 
reaux'' du grillage sont axes d'information. 


b) Cas des sondages à 2 degrés et 2 paramètres. 


Soit un univers où les u unités du ler degré comprennent des 
nombres égaux d'unités du 2ème degré : l'échantillon est défini par le” 
nombre m d'unités du ler degré tirées et le nombren d'unités du 2ème 
degré extraites de chacune des précédentes; on le représentera par les 


sommets du grillage (m, n). 


Le point (H, v) correspond à une connaissance parfaite; l'axe 
(m, v) représente un sondage en grappes et l'axe (u, n) un sondage 
stratifié (à fractions sondées égales), ce sont deux axes d'information. 


La définition opérationnelle des axes nous donne les axes (m 
constant, n variable) (ler système). 


Il existe un second procédé de sondage à 2 degrés qui consiste à 
tirer d'abord n unités secondaires dans chaque unité primaire, puis à 
désigner au sort m sur u unités primaires (2€ système d'axes). 


Les deux procédés sont équivalents parce que (n étant constant) 
les tirages du ler et du 2ème degrés sont indépendants. On dispose 
donc ici encore de deux systèmes d'axes d'information croisés. 


c) Cas d'un sondage à 2 phases (et 2 paramètres). 


On tire d'abord m unités (avec ou sans remise) d'une urne d'ef- 
fectif u. On les trie en trois strates d'effectifs m/3 et on tire ñn unités 
de chaque strate. Le treillis formé des points (m, n) admet, d'une part, 
l'axe (m, m/3), d'autre part, les axes (m constant, n variable). Il 
n'existe pas de second système d'axes croisé avec le premier. 


d) Cas d'un sondage à 2 degrés avec dépendance du 2ème 
degré. 

Si l'on sonde un univers où les unités primaires sont de tailles 
très inégales, ona parfois intérêt à se donner l'effectif total n au 2ème 
degré, à répartir entre les m unités du ler degré échantillon, au pro- 
rata de leurs tailles v;. (C'est un cas d'estimation biaisée). 


On a ainsi n;/n = v;/S v, et le 2ème degré de sondage dépend 
stochastiquement du ler. 


On ne peut tirer d'abord les unités du 2ème degré puis celles du 
ler degré. Il n'existe qu'un système d'axes d'information, s' appuyant 
sur un axe unique transversal. 
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5/ - Opérations sur les treillis de sondage. 


En passant en revue les problèmes courants de sondage, on 
constate qu'il est souvent maladroit de représenter directement les 
plans de sondage de paramètres f,f, 15. parletreillis/(f;2f015...0)% 
I1 peut être plus commode de considérer un treillis plus vaste : soit 
qu'on en découpe une partie seule utile, soit qu'on y figure les échan- 
tillons possibles avec leurs probabilités respectives, le treillis jouant 
alors un rôle analogue à celui de l'arbre défini au début. 


Plus généralement, le treillis primitif sera découpé en un sous- 
ensemble des points exclus et divers autres sous-ensembles dont cha- 


cun représente un nouveau plan de sondage. 


Donnons des exemples. 


a) Sondage stratifié avec fractions de sondage égales f. 


Du-treillis (n,, n,,... n,) on conserve les points (EVE OTU Er 
fv,), sous-ensemble décrit quand f (ou n = fv) varie. 


b) Sondage stratifié "optimum". 


= . . s À VAI GT À Vh cg 
Buimeémetrellisionconsenve les ponts 
\Ci VC2 


À Vh Oh 2 à \ 
. sous-ensemble décrit quand À (oun)varie(avecn=À Ÿ vo; / Ve). 
h 


c) Stratification a posteriori. 


À TTC 2 z N 
Le même treillis est découpé en sous-ensembles tels que à n, = n. 


Chaque point d'un sous-ensemble donné est affecté d'une proba- 
bilité hypergéométrique (tirage exhaustif) ou multinomiale (tirage 
bernoullien). 


Toutefois, on aura pris soin d'éviter qu'aucun des points (n:)ne 
corresponde à une perte d'informationinfinie introduite artificiellement 
par un estimateur inadéquat. L'apparition de certains n, nuls est un 
évènement de probabilité non nulle; et avant tirage de l'échantillon il 
faut convenir de l'estimation à employer si cela se produit. 


B - PASSAGE DE L'ESPACE TOPOLOGIQUE A L'ESPACE 
METRIQUE. 


1/ - Perte d'information. 


Onattache à présent à chaque sommet du treillis une expression 
p - la perte d'information - 
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- nulle au sommet U représentant la connaissance parfaite 
de l'univers sondé; 

- infinie aux points représentant un état d'absence complète 
de connaissance; 


- satisfaisant à la relation de récurrence, à savoir : 
p(r') = p(x) + &P(x'/7) 


- en désignant par set r' 2 plans de sondages représentés … 
par 2 points (ou sommets) du treillis non pas quelconques mais reliés 
par une arête (ou côté); 

- et par P(xr'/r) une expression qui se réduirait à p(r') si - 
l'échantillon du plan de sondage (x) recouvrait toute la population; au- 
trement dit : 


P(r'/U) = p(r!) 


En employant une majuscule P, nous entendons spécifier qu'il 
s'agit d'une grandeur aléatoire. 


Quand on écrit &P(r'/r), on désigne l'espérance mathématique 
de P (='/*r) étendue à tous les échantillons du plan de sondage (7). 


Partant du point U, et cheminant exclusivement le long des côtés 
du treillis, on obtient finalement l'information perdue par chaque plan 
de sondage de la famille; lorsque (x) peut être atteint par plusieurs 
itinéraires, la fonction de treillis p(x) a (par hypothèse)une valeurin- 
dépendante de l'itinéraire (à condition qu'il s'agisse bien du même plan 
de sondage #}). 


2/ - Métrique. 


Simultanément on introduit une métrique dans cet espace, en dé- 
finissant la distance entre deux points situés sur une même géodésique 
comme égale à la variation de la perte d'information. 


(distance #r') = p(r') - p(r) = &P(x'/x") 


3/ - Conséquence. 


Relation entre les informations perdues par 3 plans « r' r''de la 
famille de plans de sondage considérée : 


Désignant par (rx) (x') (x"') 3 plans de sondage de la famille con- 
sidérée, représentés par trois sommets du treillis reliés deux à deux 
par des côtés du treillis, 
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on a pr!) = p(x) + &P(xr'/*) 


p(r")= p(r')+6P(r''/x') 


donc p(r''}= p(r) +6 [Pr /r1) + P(n'/x) | 
Mais si r' et x sont également sur un côté, on a : 
p(r') - p(x) = &P(r /x) 
D'où : 
&P(r'/x) = &P(x'/r')+ &P(x'/*) 


Cette condition signifie (en l'absence de triangles sur le treillis) 


que * —' x sont alignés sur un axe d'information portant à la fois le 


côté mr', le côté r' —r et le côté r r.. 


On sait que cette relation doit subsister quel que soit P. 


4/ - Relation entre p(x}) et p(''). 
r et x étant quelconques, on aura : 
p(r"!) = pr) + SP(x!/ +) ts 6,P(r!/71)+. Do Re) JD çr''/n0) 
11 


à condition qu'on puisse s'arranger pour que mm %, ... 7, 1  for- 
me une ligne brisée composée de portions d'axe d'information. 


Application. 

De: la famille F des plans (x) représentée par le treillis, extra- 
yons une suite de plans de sondage 1, 2, 3, ... n, telle que "la taille 
de l'échantillon décroisse constamment" et que Z; Z:,, (consécutifs) 


soient toujours sur un même axe d'information. On a par conséquent : 
CZ Ré (eZ &6,(2,2;) HerlGreree ral) halte) 
En posant : 


Pre Zi Zi) eZ 


la formule s'écrit : 
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C'est la formule de Chasles (généralisée). 


Conventions. 


a) Jusqu'ici d'après nos conventions, les termes CZ, 2,252 
etc. sont positifs. 


Pour pouvoir parler de relation de Chasles, il est nécessaire de 
définir aussi les termes négatifs. On va donc convenir que : 


si Z; Z; est négatif, il est égal à - Z; Z; 


où Z,Z; (positif) désigne &,... &6,(Z;2;). 


b) Convention de langage. 


On appellera Z;,Z; (positif) perte d'information quand on passe de 
(j)à (i) et gain d'information quand on passe de (i) à (j). En particulier 
(5Z,) est legain d'information quand on passe du plan d'échantillonnage 
(1) à une connaissance complète de la population. 


Conséquences. 


a) La ‘formule de Chasles'' s'étend formellement à tous les 
plans de sondages de F, sans qu'il soit encore nécessaire de supposer : 
les tailles décroissantes, les plans de sondage consécutifs placés sur 
une même géodésique ; mais les symboles Z,Z, perdent leur significa- 
tion primitive. 


b) Le long de tout circuit fermé, s'il en existe sur les 
axes du treillis de F, on obtiendra : 


Conclusion. 


La perte d'information apparaît comme la somme Ÿ X, de compo- 
santes dont chacune est la"longueur''d'une portion d'axe du treillis. 


En étudiant des plans de sondage concrets, on découvrira les 
conséquences de l'existence de circuits sur le treillis (sondage à plu- 
sieurs degrés) et on s'apercevra de l'existence de composantes sous- 
tractives (sondage à plusieurs phases). 


Mais, au préalable, on va chercher (au Ch. IV) à résoudre l'é- 
quation fonctionnelle de Chasles, c'est-à-dire à connaître la forme 
analytique des P. 
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Remarque. Les changements de découpage et l'information. 


Il est en pratique très fréquent que les & à estimer soient indé- 
pendants du découpage : c'est, par exemple,lé cas si on veut estimer 
la superficie en blé, en France. 


La perte d'information est définie à l'aide d'un treillis, qui tra- 
duit une certaine structure de sondage. Le treillis se conserve si l'on 
garde la structure tout en modifiant le découpage du territoire en uni- 
tés, en strates, ...; les valeurs de la perte d'information et la repré- 
sentation métrique du sondage se modifient; ceci traduit les change- 
ments internes de l'estimateur (apparemment immuable), pour l'esti- 
mation d'un paramètre qui, lui, est invariant dans les transformations 
du découpage. 


Supposons à présent qu'au lieu de la superficie en blé on veuille 
estimer la variance £ entre unités primaires de sondage; £n'est pas 
invariante quand on modifie le découpage du territoire en unités de 
sondage. 


On estime simultanément: la superficie en blé & (à l'aide de Z), 
et la perte d'information VZ (à l'aide d'un certain W}, en supposant Z 
sans biais. L'expression de VZ renferme 6. On s'intéresse parfois à 
la perte d'information relative à W (c'est-à-dire une perte d'ordre 2). 
Lorsque le découpage est modifié, les variations de cette dernière 
perte ne signifient plus rien: car VZ et W variant simultanément, leur 
l'distance'' se modifie sous une double cause. Z estime sans biais & 
malgré le découpage changé, alors qu'on ne sait plus trop quel VZ est 
estimé par W. 


Nous pensons donc que la théorie de la perte d'information doit 
être faite avec un ou plusieurs découpages bien déterminés, qu'elle ne 


supporte pas les changements de découpage. 
Application aux sondages à plusieurs degrés. 


Empruntons à une étude encore inédite de M. Fonsagrive un cas 
intéressant de sondages à plusieurs degrés. On suppose que (comme 
c'est souvent le cas en pays sous-développé) le découpage des unités du 
2ème degré et la sous-stratification n'ont lieu que dans les unités échan- 
tillon du ler degré, en fonction des singularités que présentent ces 
dernières et en vue de réduire le plus possible la variance (à l'inté- 
rieur de l'échantillon du ler degré); ainsi la vraie structure de son- 
dage reste-t-elle en grande partie indéterminée. 


Sans doute est-il encore permis de parler de l'ensemble des dé- 
coupages possibles, et de concevoir un estimateur sans biais, sa va- 
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riance et l'estimateur sans biais de cette variance pour chacun de ces 
découpages; mais l'expérience pratique se limite à un seul découpage, 
en partie embryonnaire, et un seul échantillon; et la variance ainsi 
estimée manque de signification précise vis-à-vis de toute la partie 
non spécifiée du découpage. 


Autres applications. 


Avec les procédés courants de stratification a posteriori ou de 
sondage à deux phases, on rencontre la même difficulté : le découpage 


en strates n'est arrêté qu'après tirage de l'échantillon, ou du grand 


échantillon. Siledittirage avait donné un autre résultat, on aurait mo- 
difié les strates et, par conséquent, la variance d'échantillonnage. 
L'estimation de cette variance, sur l'échantillon effectivement tiré, a 
donc une signification limitée. 


Pour qu'il en soit autrement, il faudrait (pour éviter toute diffi- 
culté) se donner à l'avance des règles prévoyant (dans tous les cas pos- 


sibles)le découpage en strates à effectuer et l'estimateur à employer . i 


Nous nous en tiendronsici à des plans de sondage déterminés par 
un nombre fini de paramètres, c'est-à-dire à des cadres rigides de 
sondage. 


(a 


CHAPITRE IV 


LA FORME ANALYTIQUE 
DES PERTES D'INFORMATION 


On va rechercher quelles formes les expressions p(x) et P(x'/x) 
sont susceptibles de prendre lorsqu'on ne sait absolument rien de la 
forme de la distribution sondée, hypothèse très réaliste en théorie des 
sondages. 


I PERTES AU-SENS DU CHAPITRE I - 


1/ - Introduction. 


Au sens du Chapitre I, la perte d'information concerne plus spé- 
cialement l'estimation d'une certaine caractéristique & par un estima- 
teur Z, supposé sans biais (appréciable). 


On va supposer la perte d'information de la forme & W(Z) c'est-à- 
dire fonction de risque (au sens de Wald); cherchons quelles conditions 
doit satisfaire W pour que la fonction de risque & W(Z) soit perte 


d'information. 
Par hypothèse on a W(&) = 0, W(Z)>0siZ£#c. 


On supposera d'abord W fonction de Z; on sera amené ensui- 
te à considérer W comme fonctionnelle de Z. Cette fonction de Z sera sup- 
posée convexe; mais nous tenons à conserver le cas très important où 
W = |Z - &|; il ne faut donc pas supposer W "strictement convexe". 


Le problème est à présent de trouver W tel que 6 W satisfasse 
à l'équation de Chasles. 


Il existe des solutions évidentes de cette équation fonctionnelle 
qui peut s'écrire : 


EW(Z,,5)=2p W(z!, ct) 


h 


EW(Z,, = Èp, Wizs L) 


k 


avec 
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S'piW(, CE P'Wz CODE PEN (2 20) | 
k h h k | 


2/ - Une solution particulière symétrique de l'équation de Chasles. 


AU . . . h k 
Ne retenons que les cas où il est possible d'intervertir z, et z, 
dans les formules. 


En effet ii serait gênant qu'on ait : 


JDN. 227 
h k 


alors que Ÿ Ÿ p'p'W(z,, z:) aurait une autre signification. Ainsi le 


éd sd 2 ? 


k_h | 
cas particulier où W(z, &) est symétrique semble-t-il présenter le - 
plus d'intérêt. À 


Les exemples de fonction W donnés par Basu sont justement des 
fonctions symétriques en & et Z. 


On a alors par définition : 
E&W(Z;, Zi) si Taille (1) > Taille (2) 
&W(Z,, Z,) si Taille (2) > Taille (1) 
(le cas où les tailles ne sont pas directement comparables est exclu). 
a) L'équation de Chasles 
SW(Z,, &) =EW(Z,, [)+6W(Z,, Z,) 
admet comme solution particulière : 
W(Z, &)=(Z-0) 
à condition que : 
eV ZHZIZHeS606 


: dans l'espace (A) où on représente l'aléatoire Z, par un point, les 
vecteurs 


doivent donc être orthogonaux; à moins qu'on n'ait (estimateur unifor- 
mément sans biais) 
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HZ M7 (donc 62 sic) 


b) On étend le résultat à : 
W(Z, 6) = (g(z) - go) 
où g(z) est une fonction quelconque; toujours sous réserve qu'on ait : 
ee Z) rech Le(Z e 8(2:)1}= 0 


3/ - Une solution non symétrique de l'équation de Chasles. 


L'absence de biais de l'estimateur Z correspond à la condition 


DIET EN Z) =0 


c'est-à-dire FU - Z)2= 0, c'est-à-dire rt = 0OavecW =(& -Z)?. 
On peut écrire aussi 


CNET OT ZT + CEsL = C 


Sous cette dernière forme, il est clair que la relation de récurrence 
sera vérifiée. 


De même l'absence de biais peut s'écrire encore : 
SP ONCCErZ) 18-10 
Posons W(Z, [)= /p(t)(G-Z)dt avec 
etes = els /'To(cdc = 9,(6) 
Wisg (Time (Z)22 0e (0) = (2)] 
&W=6[Zo,(Z)- 9,(Z)] - [tp, (8) - e{0)] 
Là encore il apparaît que la relation de récurrence sera vérifiée. 


lere application :g(&) = 24 avec & >0, 
d'où W=(c-2) (c- HE): 3 @i- cz +2 


EW = + (25? - 31°6Z +67?) 
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3 3 


e nu &G É 
EWs (&6Z -T ) 
2ème application. œ(£) Che 
d'où wW=q-zÿc-5(4-2)-È£ (4-2) 
HS es ne: 
ee 3 L an Z 


&W 


Ill 


Ces exemples mettent sur la voie de résultats plus généraux. 
4] - THEOREME I - 


&W est nécessairement de la forme &@(Z) - o6(&), (où vo est une ! 
fonction),que l'estimateur Z soit sans biais ou qu'il soit biaisé, - du 


moment de W est fonction de ©. 


En effet partons de la relation de récurrence des pertes d'infor- 
mation : 


(1) EM(ZL) REWN(Z LE SEN(Z 2). 

On voit que le second membre ne dépend pas de G ; il en résulte 
que& W(Z,, &) =f.({)et &SW(Z,, ©) = f,(1) sont nécessairement de la 
forme k - œ{{)etk, - ®(&), o(&) s'éliminant par différence. 

Si l'on substitue Z,àt dans W(Z,, [), il suit de là que 

EM(Z 0) ER o(E) 
entraîne EWN(Z;,2) «N;2-6(27) 
tandis que &W(Z,, £) = éW(Z,, Ce SENW(Z72) 
implique &W(Z,, Che RSS MR ER (ZEN 
ou EW(Z,, 5) = [k,=EK, l'+606(Z )-"(i) 
où le crochet comprend deux termes dépendant du sondage n°2. 


Mais par hypothèse W est fonction de &, donc &W(Z,, C) ne dépend pas 
des sondages (2), d'où l'obligation pour k,-& K,;, de disparaître . 
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Donc & W est nécessairement de la forme &0(Z) -œ(6). cafd. 
Réciproque du Théorème I. 
SW(Z,, &L) =60(Z,)-0(5) 


EW(Z,Z,) = E0(Z,)-0(Z,) 


SW(Z,, ()+6EW(Z,Z)=6E 0(Z,) - 0&) 
FEWN(ZSNE) 


À condition que [&80(Z) - o(&)] ait un signe constant (qu'on rend au be- 


soin positif en changeant o de signe)ils'en suit bien que c'est une perte 
d'information. Mais la restriction qu'on vient de formuler a beaucoup 
d'importance. 


Remarque 1. 


[&6(Z) - 6 (&) ] est le biais quand on estime 0(£) par ®(Z), [alors 
que Z estime & sans biais]. 


Remarque 2: 
Par exemple de la relationV(X) =&(X°)-x°, on déduit &(X°)-x° > 0 
ou @(Z)- o(5) >0 avec [= x, 0(Z) = Z?, Z = X. 


Plus généralement : toute fonction monotone convexe 0 satisfait 
à notre condition de signe; la distribution des points (avec&Z=t}) LUZ. 
o(Z)] admet le point [&, & ©(Z)] comme barycentre, point situé dans 
la concavité de la courbe. 


C'était le cas pour 0 = &? (avec & > 0) et © =[', aux exemples du n°3. 


Le cas des estimateurs biaisés sera étudié au paragraphe:Il ci- 
après. 
Remarque 3. 


Si W estune fonction dérivable en &, on peut poser » = 2W/3C et 
dériver les deux membres de l'équation de Chasles par rapport à & en 
posant 


CNED ON (ZT) 


et en traitant les p' comme des constantes. 
On a d'abord 
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Spot) MEET 02) 
h 


k 
d'où il suit que l'expression : 


Spio(,z!) avec Prob (Z,=2;:)=p} 


doit être indépendante du rang j que l'estimateur Z; occupe dans la suite 
&Z, Z, ... d'estimateurs relatifs à des échantillons de tailles décrois- . 
santes. Autrement dit : 


S pio(c, Zi) =f(6) 


Supposons f(t)# 0: 
Posons : = @(c) = frs 


et intégrons la dérivée de l'équation de Chasles (avec les p' constants). 
Il viendra 


> pic 20e Jrad - a, = -6(&) - a, (et analogue) 
k 
avec - ÿ pio(zi)=a, (et analogue) 
h 
d'où : -6(6) +2 pe0(zx) = - ot) + D p'oiz?) + 9 p'[- o(z) +5 p'o(zi)] 
k h h 


k 
donc : & W(T, Z) = 60(Z)-o0(£) 


On retrouve le théorème I. Il faut noter pourtant que f(&£) n'est pas 
&®, car on n'a pas le droit de remplacer 


En effet : si par exemple W est de la forme 
A, (6) + A,(T)Z + A,(5) Z° +... 
on aurait 


d_ &w = A: 1 G 1 Ê d à 2 
St W AJ(T)+A!(6) Z+A!(t)EeZ MaibEr (PANNES 


contre 6 = AC) A!(1)62Z + A,(t) & Zi 


avec par exemple : &Z =, donc 37 (62) = 1, etc. 
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On a supposé f(&) # O0. 


Au contraire on a 6 « = 0, c'est-à-dire &(T - Z) = 0 (absence de 
biais). 


Finalement il est superflu de supposer W dérivable; et la pre- 
mière démonstration du théorème I est moins discutable que celle-ci. 


4/ - THEOREME II a - 


La perte d'information étant &W, où W estune fonction de Z et (QE 
il existe nécessairement entre estimateur Z et estimé & une relation 
de la forme 


&A(Z,t)=0 


En effet posons W(Z, ©) =A(Z, CT )+®@(Z) - o6(&) avec le © du théo- 
rème I ; il vient de la sorte 


&GA(Z, &t)=0 cqfd. 
Cas particulier : 6Z -{ = 0 (estimation sans biais). 
THEOREME ITb- 


S'il existe entre estimateur Z et estimé & une relation de la 
forme 


&o(Z, t)=0 


on a nécessairement A(Z, C)=wy(L).œ(Z, &) (A étant celui défini au 
théorème II (a), sous la double condition : 


DCUCRE) perte d'information soit suffisamment régulière; 


- que la distribution sondée soit suffisamment générale. 
(condition qui sera supposée remplie dans les numéros suivants sauf 
avis contraire). 


En effet si par exemple et A sont deux fonctions de Z dévelop- 
pables en série entière 


+0 * Fe F 
& = > 212%, A = >: b:2: 
o o 
les deux équations en & +0 


334 PIERRE THIONET 


déterminent le même & si (et seulement si) bi/a; est une constante, 
soit y (&) (en supposant donnés la distribution à sonder, le plan de son- 
dage et l'estimateur et en excluant toute relation particulière entre 
ES eZ CTN ee) | 


2 


Cas particulier : @(&) =C ; 
(ZunGŸ + CN m2 OL ZE 2) 


A 


DIE LS Lui = ai 


5/- Conséquence : Relations entre pertes conjuguées d'information } 
Lorsqu'on permute & et Z, la perte d'information n'est pas con- a 
servée si W n'estpas symétrique enZ et &; ondira que ces deux pertes ! 
d'information sont conjuguées. | 


Désignant par une astérique les fonctions où Z et & sont permu- 2 
tés, on a (y désignant yw(&) et y* désignant y (Z)) : 


W =0(Z)-0(ç)+4 
W* =0{(5)-0(Z)+ 
d'où W+W° =4+4"= vo + p*o* 


W-W° =2[0(Z)-0(&)] + (4 - 4°) 


. LA Pa . “ 
Le cas où W (=W )est symétrique est plus spécialement intéres- 
sant. On a alors : 


6(G) - o(Z) = (4 - a+)/2 = (yo - y'o*)/2 
W=(A+4*)/2 = (yo + y*o*)/2 


6/ - Résolution de l'équation de Chasles avec un estimateur sans 
biais 


THEOREME II - 
a) Si W est symétrique, on a 
W=A(Z -t}, ® = Ac? 


En effet on a o = & - Z : d'où : o*= -6 
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0()-0(Z)=(ve - y*o*+)/2 
ou 20(6) - 20(Z) = (C - Z)y(£) - (Z - L)y(Z) 
c'est-à-dire : 
(20(2) - Zy(Z)] +[Cy(Z)- Zy(t)] - [20(6) - Cy(S)] = 0 


où chacundes crochets doit s'annuler séparément à cause de la grande 
généralité imposée aux distributions (donc à celle de Z)}); d'où : 


2 Ne) = y(Z), +2) = _ ; 2 ns 1 
d'où 
0(Z) _ 0(6) 
7 1 
imposé quels que soient Z et &, d'où 
@Z) =AZ°, DL NC PIRE 


MN TIDAONOAZ) ONZE) NU C | cafd. 
b) Si West asymétrique, W est nécessairement de la forme 
Mn (ZE OI IEC) En CCEEZ) 
où © est arbitraire, à part la condition ©" > O0. 


En effet 2W/2Z =0'(Z)-y(&)doit êtrenulpour Z = 6; et 9 W/0Z° =0"(Z) 
doit être positif, de façon à s'assurer que W(Z, & )autourde W(&, C)= 0, 
est positif et croît avec |Z - &|(1). I1 suit de là que 


(9W/9Z),= 0'(5)-v(5)=0, 


d'où le théorème énoncé. 

7/ - Extension immédiate à un certain estimateur biaisé (moyen- 
nes à la Gini). 

f étant une fonction arbitraire, substituant f{(L) à C'etf(Z)à2Z, 


(1) Nota : ®'' > 0 équivaut (lorsque 0" existe) à la convexité requise pour Ÿ; voir 
réciproque du théorème I. 
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il vient les expressions suivantes de, de W et de d dans le cas où W 
est symétrique en Z ett, - de W dans le cas où W n'est pas symétri- 
que (avec o'"'> O)(1) : 


& = (0) (2) 
a) W = W* = a[f(Z) - f(L)]’, o (&) =A [f(L)l 


b) W =0o[f(Z)] -o [f(c)] +o'[f(t)].[f(C)-f(Z)] 


Il - LES PERTES D'INFORMATION DANS LE CAS DES ESTIMA- ‘| 


TIONS BIAISEES - 


1/ - Introduction. 


On vient d'étendre à l'estimation biaisée de par Z, fruit de 
l'estimation sans biais de f(&) par f(Z), le théorème sur la perte de 
l'estimation sans biais. Cecine présente qu'un intérêt pratique médio- 


cre, car les estimateurs biaisés les plus employés ne sont pas de cette 


forme ; maisl'intérêt est d'ordre théorique. 


On va voir que les moyens mis en œuvre jusqu'ici sont alors en 
échec. Si la distribution de Z n'est absolument pas particularisée et si 
les fonctions considérées sont parfaitement régulières (et d'abord si 
ce sontbiendes fonctions, non des fonctionnelles) le théorème qui suit 


montre qu'il n'y a rien au-delà de l'estimation sans biais de f(£) par 
f(Z). 


THEOREME 1 - 


Pour qu'une fonction W(Z, &) existe, ilest nécessaire que & = 0 
soit de la forme 


y(T)I&f(Z) - f(5)1 = 0 


En effet 6 (2; 00 }=0 S'ÉCrItEZ RQ) 


1 


(2 ZM) C s'écrit Z, = h(0,Z)=h{(0,0,0) 
d'où o(Z,, ©) = h, ( Q;, Q ; t) 


Or &w(Z,, Z,) = 69, = 0 détermine Z, en fonction de la distribution de 
Z;; de même & o(Z,, &) = 60 = 0 déterminer. Ces deux relations en- 
traînent donc 


6w(Z,, t)=0 


(1) Voir note de la page précédente. 
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Ceci n'est possible que si l'on a : 
o(Z,, 6) = A0, + A0 


(en supposant h, suffisamment régulière et les distributions de Q, etQ 
assez générales); soit 


0(Z,, ()= À 0(Z,, Z,)+Aw(Z;,t) 


qui n'est possible qu'avec À= NT (EiCer(=27 7 0ù Z, = 2;); ce qui 
implique 


017, 2) uiZ) cafd. 


2/ - Cas où la fonction W(Z) ne serait pas fonction dec. 


Puisqu'on renonce à se limiter aux W symétriques, il est naturel 
de supposer que W est seulement fonction de Z, avec W(C&) = 0. D'ail- 
leurs le texte de Basu cité à la fin du chapitre IL, $ I nous y invite. On 
constate alors ce qui suit. 


THEOREME 2. 


Si W n'est pas fonction de &, et est fonction continue et dérivable 
de Z, l'équation de Chasles est vérifiée, à la condition (nécessaire et 
suffisante) que W{z) soit une constante. 


En effet la relation de Chasles prend alors la forme : 

SW, (Z,) = SW, (Z,) - 6E W,(Z,) 
où l'indice 0 indique que la distribution de base estla population (des x:); 
alors que l'indice (h) désigne le grandéchantillon fournissant l'estima- 
tion Z, =z} et sur lequel est calculée la perte d'information W, (220 
pour chaque petit échantillon (k). 


&W,(Z,) est fonction des z' et indépendante des Zge 


Mais si W, n'est pas fonction de &, W, n'est pas fonction de 2}; 
etils'en suitque le second membre a sa dérivée nulle par rapport à 2 
donc aussi le premier membre. 


Par conséquent W (z;) resterait constant, au moins lorsqu' on 
donne à z° de petites variations. 


Si nous excluons le cas où W(Z) serait discontinue, on a bien : 
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W,(z}) =, donc &W,(z') = 6(A")= A, 
EW(Z,)=A 
&EW(z') = A, -A, 


Remarque. 
Supposer W(z) continue, c'est écarter le cas où W(z),tout en étant 
“globalement'' variable, resterait constante dans des intervalles, au- 


trement dit augmenterait par saut quand z s'éloigne de &. En effet, on 
peut considérer qu'un tel indicateur de la perte d'information serait 
défectueux du point de vue conceptuel (tout en acceptant en revanche 
que la courbe (convexe) représentant W(z) présente des points angu- 
leux - par exemple soit polygonale). 


3/ - Le cas exceptionnel d'estimation biaisée. 


On rencontre très facilement le cas suivant, qui correspond à 
une distribution de Z tout à fait particulière : 


THEOREME - 


Si l'erreur d'échantillonnage a un signe constant, tantpour Z, - Z: 
que pour Z,-0, le module du biais est perte d'information, ainsi que 


tout | g(Z) - g(& )|, où g désigne une fonction monotone. 


Réciproquement, si &Z -{ a un signe constant, il est nécessaire 
que l'erreur ait un signe constant pour qu'on puisse écrire : W=Z -&. 


En d'autres termes, Z, ne prend que des valeurs 2} disons inférieures 


2 s h : 2 : 2 ns 
ou égales à &; Z,(z,) ne prend que des valeurs inférieures ou égales à 


h, 
Z;; etc. 


Bref l'équation de Chasles est vérifiée, pour la seule raison qu'on 
a (terme à terme) : 


W(zi, c) = W(z}, c)+ W(zs, z}) 
en posant EW(Z, 0) = 07 
voire +W(z, &) = g(L) - g(z). 


Bref la perte d'informationest anti symétrique. En voici deux applica- 
tions très simples. 


On s'est limité aux sondages exhaustifs. 
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4] - Estimation de la plus grande valeur des x.. 


Soit a > b > c... les valeurs des x. Soit f(x) une fonction crois- 
sante (sur tout l'intervalle des x.) avec, par définition : 


Wixina)={axi)=dia)=f(x;) 


par exemple (ax;) = a - x. 


Application. 


Pour n =v - 1, il y a une chance sur v que l'échantillon ne ren- 
ferme pas(a), maisalors il renfermeforcément (b) et la perte d'infor- 
mation est égale à 


&W = = (ab) 


Pour n=v-2: parmi CY* = C? combinaisons, dont (v - 1) ren- 
fermant la lettre a, les combinaisons ne renfermant pas (a) mais (b) 
sont au nombre de (v - 2); et une combinaison ne renferme ni (a) ni (b) 
mais (c). Ainsi la perte d'information est : 


&W = [(v- 1) (ab) +(ac)l/C? 


n . . n 
Pour n quelconque : sur C, combinaisons : C1 renfermant a, 


ns renfermant b (sans a), ce renfermant c (sans a ni b), etc. 


D'où la perte d'information : 
[ce (Ab)EC ac + 4 Cas 


Remarques. 


1) La théorie précédente se transpose immédiatement au cas de 
l'estimation de la plus petite des valeurs x.:. 


2) Dans les deux cas, l'estimateur Z de & est toujours biaisé, - 
par défauts'ils'agit de la plus grande valeur, - par excès dans l'autre 
alternative; l'écart &[Z est toujours de même signe. 


3) A mesure que l'échantillon devient plus petit, Z ne peut que 
s'éloigner davantage de &; autrement dit {Z, et Z,Z,, sont de même 
signe. 


Si la plus grande valeur connue pour un certain échantillon(n)est 
(b), la plus grande valeur pour les n échantillons d'effectif (n - 1) qu'il 
engendre sera b, ou c, ou d... mais en aucun cas ne peut devenir a. 
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5/ - Estimation de l'étendue (ou amplitude) ("range"). 


L'étendue (r }),écart entre le plus grand et le plus petit des x;, ne 
peut être estimée que si l'échantillon comprend au moins deux boules, 
n>2,en quoi elle diffère de la plus grande (a) des valeurs de x, qui 
demande seulement qu'on ait : n > 1. 


Cela mis à part, r et a sont des propriétés tout à fait analogues : 
lorsque l'effectif n de l'échantillon diminue, depuis v jusqu'à 2, l'écart 
entre le plus grand et le plus petit des x; - échantillons est au plus 
égal à r et ne peut jamais augmenter. Il fournit donc de r un estima- 
teur biaisé par défaut. 


La perte d'information correspondante peut être définie de façon - 
comparable. 


Soit a DR. VE 7, les valeursideire 


Pour n=v-1, y av -"2*chances survique (az) =1(az): 


VE - [(ab) + (yz)] 
Pour n = v-2 : 
1 
W NE 10Ce (ab) (2) Co + [(ac) - (xz)]} 


Pour n quelconque : 


1 
C, 


W=r {0.C.,+ (ab) +(y2)] [C5 + CU + [lac )+ (az)] (CES +... + CHE] 4 


6/ - Retour au cas général de l'estimation biaisée. 
Alors queni VZ=&@Z" -ç°+[1°-(&8Z)], 


ni &(Z -ç) =62Z°- [°+21(C-6Z) 
ne sont plus des pertes d'information, il en existe d'évidentes,en ce 
sens que la relation de récurrence est manifestement vérifiée : telles 
sont 


&Z° -{° ou &0(Z) -0(£L) 


où © est une fonction arbitraire, sous réserve (a) qu'on ait bien : 
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O(L) < E0(Z,) <S0(Z,)..… 


avec les notations du théorème I ( $I), et (b) que Z, se réduise bien à 
Z.,, lorsque l'échantillon de r, recouvre celui de —r, (les plans de son- 
dage x, et r, appartenant à une suite de plans à effectifs décroissants 
pris sur la famille 5). 


La restriction (a) n'est plus une banale concavité puisque & n'est 
plus la moyenne de Z,. La restriction (b) est une condition d'estima- 
tion "cohérente" au sens des sondages (laquelle ne comporte ni exis- 
tence de tirages infiniment nombreux ni convergence en probabilité). 
L'estimateur Z (biaisé) sera donc supposé à présent ‘uniformément 
cohérent", c'est-à-dire cohérent tout au long des suites de plans telles 
que 


AURA PR 

On s'intéressera ici plus spécialement aux estimateurs isomor- 
phes du paramètre à estimer. La notion d'estimation uniformément co- 
hérente est un peu plus large que l'estimation isomorphe (l'expression 
de & à laquelle se réduit Z lorsque l'échantillon de r recouvre l'uni- 
vers U pouvant être finalement plus simple que celle de Z). Toute fonc- 
tion arbitraire g(Z)est d'ailleurs estimateur isomorphe de g(£), ce qui 
explique l'arbitraire laissé à la fonction ©. 


La première difficulté est celle de l'affectation de telle ou telle 
perte d'information à telou tel estimateur. Pourquoi (&Z°? - &[?) serait- 
elle nécessairement affectée à l'estimation de & par Z. Quand on es- 


time le ratio & = a/b par Z = A/B avec &A = a; 6B = b, on sait que les 
termes en (n-!) de &(Z - &)° et du biais sont : 


&(Z.- LY # (r72- 2eyv' + y"). n° 
CPR FAT Pyrie nn: 
Notons que, de toute façon, V(Z) et &(Z - 4) sont équivalents : 
6(Z-L) = V(Z)+(6Z -L) 
En revanche SZ -L= &(Z-t) +216(Z () 
de sorte que : 
eZ ER N 207 (let) Ee2C)le. ne 


Nous serons amené plus loin à définir une perte d'information 
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pour Z qui est en désaccord avec ce résultat; autrement dit nous n'at- 
tacherons (8Z°? - &?) à Z que lorsque le biais est nul (ou d'ordre su- 
périeur au premier). Ceci montre qu'une certaine prudence est néces- 
saire pour rester cohérent. 


7/ - Théorie de l'estimation isomorphe. 
Désignons par W[Z,&t ] la fonctionnelle qu'on entend substituer à 
la fonction W(Z, GC). 


Posons d'une manière générale : 


&WI[Z,5] 60 [Z] - ofc] 


il 


W[Z, ç] 


GIZ ei RAA EZ CI) 

(les crochets désignant des fonctionnelles). On aura nécessairement : 
&A[Z,&] =0, W_AK,; cie =#0; WafZ 01510 

plus une condition de convexité pour W. 


ler problème. 


Traduire par une condition de la forme 
&A [Z,G] =0 
la relation entre estimateur Z et estimé {. 
S'il s'agit de { = a/b et Z =A/B, avec 
&A -a=6&B-b=0, 


en raisonnant comme pour établir le théorème 1, on montrera qu'on a 
nécessairement (si ! est fonction très régulière de À et B) : 


A(Z,G] = v,l6] (a - A)+w,[t] (b-B) 


D'une façon générale on va supposer que & = f(a, b, c, Jet AAA 
BAC7- avec 


&A =a; GB 1p;: AC 


- l'isomorphisme de Z et { est traduit par la présente d'une 
fonction commune f; 


- les ABC... sont calculés sur l'échantillon et lesabc 
. sur l'univers; 
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- À est isomorphe de a, B de b, C dec, etc. 


Alors on a nécessairement (pourvu que A soit une fonctionnelle 
très régulière) : 


AZ, C] = y,K]. (a - A)+w, [ct]. (DER) y ITS (CAC NESESE 


d'où 


WIZ, 4] = o[Z] -o[ç)+ mit] (a - A)+ wc] (b- B)+v, Rl(e-C)+.. 


2ème problème: Cas où W[Z,{] est symétriqueenZet&. 


Le calcul du théorème III se transpose : W = W* ;posons 
HUE v,viZ] .*v* 


2{o0[5] - o[Z]}= (a - AN y,+ 4) + (b - Bl(y, +y3) + (c - Cv, + vi)... 
2 © Le = 2 RD ARCS, BF 


0 =(ay,- Ay)+(by-By)+(cy;- Cv)... 


2 6[Z] = Ayr+ Byx+ Cyr... 


d'où 26[Z]= «A? + BB° +yC°... 


2WIZ,cl = a(A - a)*+8(B-h) +y(C - c)° +... 


Cette solution n'est pas contestable; mais il se trouve que ce 
n'est pas celle qui est employée dans la routine des sondages. 


3ème problème. 


Traduire par une relation entre o et les y, la convexité de W. 
On a : 


- v, (] 


( 


à À 


en supposant que W[Z] est en réalité une fonction dérivable W(A, B, 
CPE) 
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On va écrire que, pour & = Z (c'est-à-dire a = À, b = BAC=IC) ONCE 
2W/2A = 0, 2W/90B = 0, 2W/9C =0... 


d'où : y,= do[t]/0a, y, <= 2o[(t]/2b, y, = 20(1/2c... 


, 20 K] à dokle en 5 
et W=01Z] - of] ns (a ARE (b-B)+ (CAC 


relation transposée de celle du théorème III. De même on doit écrire 


220 22 d20 S0 
re a SE Se: ei 
avec 
229 220 220 \° DE 
Sa he Sa Dh EI 


En particulier en supposant symétrique en &, Z la fonctionnelle W [ZACR 
on retrouve le résultat précédent. 


Autre solution particulière. 
Posons p, = pa y 
Il vient : 


2(0[c] -® [Z])=(y+ v*) {a (a - A) +B(b - B)+y(ce - C)...} 


en supposant que a B y ... ne sont pas transposés car constants; on 
posera : 


œ(a = A) rHB(b = PB} (cac)... =01z 2) 
avec QU = = 0 


et le calcul du théorème III donne cette fois 


W = 0[Z] -0[6] +2 Volcl{Vo lc] -Vo [Z]} 


avec V® [Z] = «A + BB +yC = y[Z] 
Vo lis camtpb+yen=mie] 


La perte d'information est : 
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&W = &la(A - a) + B(B - b)+y(C - c)]° 


Choix de afy. 


Jusqu'ici le choix de «By était resté arbitraire. Les conditions 
de convexité étaient bien vérifiées ainsi : 


20/20a = 2a(aa +pb+yc) 


d'où 


CA ORNE 0e) Date or 220 
ue s) Han Pen cp 


On va particulariser « B y defaçon à rejoindre la définition du $1 lors- 
que (A -a),(B-c),(C - c) sont infiniment petits. Pour cela on différen- 
Crea MD Cr lviente: 
GIE Sete PM el UC cle se 
et on choisit «,B, y proportionnels à f'a, f'b, f'c. Ainsi on substitue à 
W(IC)I= 20 (théorème III) 
la relation CUISINER SNS Ne 
D'où la perte d'information Re non symétrique) : 
&W =22 &lf'a.(A - a) +f'b.(B - b) +f'ce.(C- c)]° 
8/ - Application et conséquences. 


1) Estimation du ratio. 


ÿ =a/b d'où log & = log a - log b. Een 
W = A2 2 e( A) E LE & EE A2 té & e ci = 
2 SE b FN 0 a b 
ae A B\? : 
L'expression usuelle des statisticiens est 6 Et De premier terme 


du développement de 


2) Estimation du coefficient de corrélation. 


p = Cov(x y}/o(x) . a(y) 
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On posera | 

a = No2(x)/N - 1; Die N 6? (y)/N “He c=NCov(xy)/N -1 

dont les estimateurs isomorphes À B et C sont sans biais. 

Soit p2= &. Ainsi à[a b& - ce? = Olcorrespond bien[A B Z - C? = 0.] 
dc/& = 2(de /c) - da /a) - (db /b) 

d'où &eW = nee 6 (2 . ù : x à. 


à un facteur près (indépendant de Z). s 
Là encore il s'agit d'une première approximation de la variance. 
Notation. 
Au lieu de &W = &(Z - Ç) on peut donc écrire 
&W = &(5Z -51) 

Parmi toutes les pertes d'information (dépendant d'une fonctionnelle 
arbitraire o) on a donc choisi plus particulièrement celle qui (quadra- 
tique en À B Cest asymptotique à la variance (lorsque Z est très voi- 


sin de z). 


Remarque (complétant le $6 ci-dessus). 


C'est pour une raisonde convexité que les estimateurs biaisés Z 
n'admettent pas Z? -1? comme perte d'information. 


Il suffit de le vérifier dans le cas du ratio : 


Ze NE, t = a/b, &A -a=6B-b=0 
Posons o'(te EW = 67? - [? 
= 0 
= — _- — + A GA = 
ENT Le 9 
d'où d=18 A0 ©) 


Imposons à W[Z] = W(A, B) d'être représentée par une surface tan- 
gente (aupoint A = a, B=b)au plan À = 0; il vient 
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ANA TRe 2W 2A 
dA B?2 : 2B ASE NE 
d'où À =2/a/lh u = - 2 a2/b3 


Montrons que la surface représentant W(A, B) n'est pas convexe. 


Orne 
d?W dW CO TS 4AŸ __ 44. 
HAE eue ne Er pa np) nee ren; caf 


D'ailleurs l'expression exacte de 8Z° est souvent fort compliquée ; 
et au point de vue des calculs pratiques on gagne à renoncer à AGEN à 


9/ - Estimation du maximum de vraisemblance. 


a) On sait que, pour une variable Z dont la loi de distribu- 
tion admet la densité 


g(z, C) 


t étant le paramètre à estimer, la quantité d'information de Fisher 
(pour n tirages sans remise) est nH, avec 


Ÿ . log g(Z, ct), H = 6(Y’) 
b) En fait (H/n) est une perte d'information; car c'est la 


variance d'une moyenne arithmétique Y d'espérance mathématique 
nulle. En effet, posons 


Y; Bi log g(z,, ), w & Sy;/n. 


En dérivant (par rapport à &) sous le signe il 
for ste t)4Z =1 
(à supposer qu'on ait le . de le faire) on trouve 
Es = 0: d'où EY = 0, cqfd 


c) On peut considérer que l'estimation Z° du maximum de 
vraisemblance est un estimateur isomorphe del. Plus précisément L 
et Z° sont racines de deux équations isomorphes, à savoir : 
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v(5) = &y() = 0; Y(Z)=S y.(Z°)/n = 0; | 


et, si par exemple leurs premier membres sont développables en série 
entière: « 


2 
de +a,t + a, t HR 


= 
x 
cr 
> 
Ill 
@ 
cé 
Lan. 
+ 
LA 
ql 


y(t) = : Si (t)erÀ TANIA IEEE 


on a (quel que soit t) &=w, et par conséquent &A; = a;. 


On se trouve donc dans un cas à peine plus général qu'aux n°1 et 
2:à ABC... est substituée l'infinité des A.. 


d) Ainsi la perte d'information serait de la forme 6 W [Z°] 
avec 


MZ TER PA EE EE) 


e) À GT et g donnés correspond Z°; donc & est fonctionnelle 
de Z°; donc en faisantt =C,WY(&) est une fonctionnelle de Z° qu'on peut 


appeler \ ® [Z°]. 
Alors \V®K] n'est autre que w(&),c'est-à-dire 0. D'où 
60[Z°] - © K] = 6Y? - 0 = H/n 


L'information de Fisher est donc le produit par n°? d'une perte d'infor- 
mation relative à l'estimation (biaisée, isomorphe) du maximum de 
vraisemblance. 


Nota - Cette variance ne pouvait représenter la perte d'information 
relative à l'estimation de &Y puisque &Y = 0. Ù 


10/ - Généralisation : Variances de statistiques hors estimation. 


Revenons sur le cas de n tirages équiprobables dans une urne 
unique de taillev. Soit Y, une statistique quelconque (calculée sur 
l'échantillon); 


CR'ES CR) 


dépend en général de n; et on ne peut donc dire de Y, que c'est un es- 
timateur (sans biais, d'un quelconque n). En revanche Ÿ Y, est perte 
d'information du moment que la relation de récurrence est satisfaite ; 
c'est-à-dire, avec n > n', dès que 
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&{[Y 


n 


CLONES 2 NV TT = 0 

a) Supposer E,[Y,,] =Y, (uniformément)reviendraità faire 
dépendre Y, et y des n' <n, ce qui est à rejeter. En revanche rien 
n'empêche d'admettre que la différence 


HV me EVS 


est constante (ne dépend pas de Ÿ,) pour n' donné; ceci implique pour- 
tant que : 


ENS EE vit, v) = y(n, v), 


ou RÉ (ERV) ET EV(n av). 
Conclusion. 


I1 y a lieu de supposer la variable 
VE (NE Ev) 


uniformément sans biais, pour que la perte d'information Ÿ YŸ, existe 
(sans être encore attachée à quelque n). 


Alors se pose le même problème qu'au n°9 : Peut-on rattacher 
ATOS (nv) 
à l'estimation biaisée d'un certain & par un certain Z ? 
Refaisant à l'envers le calcul du n°9, il vient 
WE 0 : RARE) y (n nv) 
Si Y, dépend d'un paramètre & à estimer, tel que 
&Y,(L)-yin,v, 5)=0 
l'estimateur ''isomorphe'"' (au sens du n°9) est la racine de l'équation 
Y(Z)-yimv, Z)=0 
b) Supposons plus simplement que Y, = S y;/n; 
CA FE PE 


où y; dépend d'un paramètre &; VY, - y? est alors une perte d'infor- 
mation. Il vient 
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S Yi 
(0 = 
“te 
Posons : Y(Z) ue 0 


I1 y a isomorphisme entre les équations 6y = 0 et S y:/n = 0,et. 
(au même sens qu'au n°9) entre & et son estimation Z. 


Remarques. 


1) Dans quels cas la variable Y, - y(n, v) est-elle uniformément 


sans biais ? 
RE 2 
Considérons par exemple Ÿ, =S, 


- lv 
y(n, v) S ct, (Me 


On n'est pas dans le cas recherché, vu que 


c CHEMIN v LAN CHE 
csv Tri «| DORE UT |: 


et 


s (n - lv a | | 
(v - 1}jn | 


La seule possibilité est d'avoir E[Y,:] = Y, + k(n'}), kétantcons- | 
tant (quandn!' est donné) c'est-à-dire indépendant de Y,;ilen est ainsi 


quand Ÿ, est de la forme 


X + Sora} (condition suffisante) 


=] 


2) On peut (sous des conditions assez larges) écrire un dévelop- 


pement tel que : 


1 1 1 die 
PO PS SE 


et on n'a pas en général a, = ... = 0. En outre un cas encore plus in- 


téressant serait celui où 


1 
y(A, Are - 


n V 


11/ - Quelques considérations générales sur l'estimation. 


a) Iln'est pas question d'exiger de tout estimateur l'absen- 
ce de biais; mais on ne peut accepter pour estimer & n'importe quelle 


statistique Z. 
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En pratique on a rencontré trois cas : 


- isomorphisme et absence de biais (exemple : nS?/n - 1 
pour vo?/v- 1) 


- isomorphisme avec biais (exemple : S DOUTE) 
nv ls 


- absence de biais sans isomorphisme (exemple : T) 
ne= Vv 


pour o?) 


b) Les exemples ci-dessus relèvent du cas où, n(v) étant 
isomorphe de l'aléatoire Y, ona 


&Y = yÿ(v, n)=n(v). a(v, n) 
Un cas également simple est celui où on aurait : 
&Y =n(v)+b(v, n); 


on poserait &=n(v), Z = Y - b(v, n). Lecas mixte serait &6Y = an+ b, 
d'où & =n(v) pour Z = [Y - b(v,n)]}/a(v, n 


c) Mais en général il n'est pas question d'éliminer totale- 
ment le biais. Par exemple, que o soit estimé au moyen de S, ou de 


= S\n(v - 1)/v(n - 1), il y a biais. 


De ce qui précède, il résulte qu'on mesure la perte d'information 


è 02 S 
relative à — = estimateur de — para Ë ) 
n - 1 v- | n - 1 


(n - 1)v . 
(v = 1)jn 2 
celle relative à S°, estimateur isomorphe biaisé de © 


&(S° - 0} =VS + Et 9° - : 


relative à S° estimateur de par ŸS”; 


2, ne sera pas 


: n 
mais À 
n - 1 


La perte d'informationn'est jamais définie qu' à un facteur cons- 
tant près; etil y a lieu de considérer quensS ?/n- FES à et aussi S, ont 


2 
: é ns ne ; 
pour perte d'information symétrique À & ee DR de Le choix de À 


demande une convention supplémentaire (voir Chapitre VII); 
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d) On a vu (Ch. Hi, Sa C)rquenbaen trouvait moins de 


risque à estimer x par c X (c < 1) que par X. Au point de vue "perte 
d'information", iln'y aurait pas de différence entre X et c X (ou plutôt 


c X n'informe pas sur x). 


On verra au chapitre VII que certains estimateurs permettent de 
réduire les pertes d'information (théorie des informations supplémen- 
taires); ce ne serait pas le cas de c X. 


On ne saurait pourtant se passer d'un critère pour le choix de 


l'estimateur (c = 1, par exemple); critère comprenant comme cas par- 
ticulier l'absence de biais. 


e) La coïncidence complète des formes analytiques de Z et ; 


t (source du mot ‘'isomorphisme"') n'est pas nécessaire en soi, elle 
assure a fortiori la ‘cohérence quand l'échantillon grandit jusqu'à re- 
couvrir toute la population; mais la cohérence (consistency) elle-même 
lorsque l'échantillonest petit, n'est pas toujours exigée (et peut empê- 
cher l'élimination d'un biais, auquel cas on renonce à la cohérence). 


f) En revanche la relation de récurrence de l'axiomatique 
de l'information adoptée ici suppose (si Z et Z' sont estimateurs de CL 
dans une suite de plans de sondage de tailles décroissantes) que Z'! in- 


forme sur & lorsque Z informe sur & et Z' sur Z. Plus précisément : 
la relation EZ = £ estuncas particulier d'une correspondance générale 


eZ=T 
qui possède les propriétés suivantes (transitivité). 


Soit RTE, LE, Pl EE Z, (r >1) les expressions deZ 
pour toutes les tailles d'échantillons successifs (de v-1àr); 


(1) eZ, ,=5 


entraîne e'Z, = Z, pour tout m>n. 


(2)SieZ,=6ete!Z,. = Z, ona e e'Z, = 0 et l'opérateur (ee')fait par- 
tie de la même famille que e. 


(3) En particulier, si Z, est calculable pour n = r = 1, on a : 
PRE À CS CRETE 


D'où : CHR ES ME CARD CPR Ne aire he 
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qui donnent les définitions de l'estimateur Z et du paramètre& de la po- 
pulation U. 


App lication. 


Reprenons le cas où T=%x, Z=2cX (Basu; voir IV, I, C ci-dessus). 


Soit Z,, =a X:6Z,,-=at; de proche en proche, il vient Z. =a”"X. 
= g7-1l Me 
1 Se 


De la même façon, on pourrait avoir Z,_, = X +b, d'où 


z 


7 X + (v - n)b 
Rien n'empêche de rendreles coefficients a et b fonctions du rang n de 
tirage. 


Remarques. 


1) Soit à estimer & par Z, tel que &Z = f(&). La transitivité n'est 
possible qu'avec une relation f linéaire. 


2) On verra encore au n°14 que le calcul de la perte d'information 
n'est possible qu'autant que & et chacun des Z ont une expression com- 
mune, ence sens qu'on doit pouvoir calculer une certaine fonctionnelle 
6 [Z] pour chaque Z et en particulier pour &. 


ASRDETEC 
3 , 
l'une des trois valeurs Vab, Vac, VWbc (pour n =2,v =3). 


Par exemple, on ne peut admettre & = si Z prend 


12/ - THEOREME 1 bis - 


Si W[Z,&] est fonctionnelle de Z et&, on a nécessairement 
&W = &0[Z] - [ct], ol ] étant elle-même une fonctionnelle. 


En effet &E W[Z,, Z.,] n'est pas fonctionnelle de L; or ce n'est autre 
que 


EWIZ,,) - 6W[Z,,c] 
Mob MEN IZ,, Cle k;= of), EW[Z,, Z] =K,, -0 [2] 
d'où : EWIZ,,1] = [k,- &K,.) + éo1Z:1 - 0] 
qui ne doit pas dépendre du sondage n°2; comme quoi 


KR GR 
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Remarque. 


W[Z,:] peut dépendre non seulement deZ et C mais de la distri- 
bution de base; le calcul suppose-que ces paramètres restent constants 
quand on remplace WIZ,, ©] par W [Z,, Z.)J. Par exemple, pour l'es- 
timation du ratio, on doit avoir 


A BE DNe , Aÿ-a $ B;-b\* 

WIZ,, C] -(£e . 2?) WiZ. CI (Are. 
ASETA BMP A. 
WI2, 2%] = _ PSS <= ) 


et non pas NPA AE ( 


On dira que l'estimateur est uniformément biaisé siona 


Evo [Z;,, Z;] =0 


condition qui entraîne &«w [Z,{] = 0. Ceci suppose donc que Z, est lié 
à la distribution de Z, de façon transitive : c'est le cas pour : 


Efa(A, SAC (RSR) ESS 
Si « et B sont constants. 


13/ - Autre remarque. 


La nécessité de considérer tantôt une fonction ©(Z) et tantôt une 
fonctionnelle 6 [Z] peut être mise en évidence en considérant la perte 
d'information attachée à un point. 


Considérons le point M(X, Y), estimateur sans biais du point 
m(x, y) et la perte d'information qui entache cette estimation, soit 


ViuX +vY) =uV X +2uv Cov(X Y) + v° V Y 


Considérons les nombres complexes Z = X +iY et L= x#+ iy affixes 
de M et m, avec &6Z = par définition 


VZ=VX +2iCov X Y +2VY 
Passons en coordonnées polaires Re °- ZE EU = & . La perte 


VZ = V(Reï®) = &(Re°- reit) 
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n'est manifestement pas de la forme (où cop signifie perte en commun). 
A, p(R) + 2A, cop(R, 6) + À, p(0)- 
On peut isoler dans VZ la perte d'information 
(GR x") 


qui n'est pas une variance (car R n'est pas en général estimateur sans 
biais de r). 


En tous cas on ne peut y isoler une expression de la forme 
&o(®)-v6(8) 

Si l'on remarque que 8 = arc tg Tt, © = arc tg T, où ret T sontles 
ratios (univers et échantillon), on comprend que l'emploi d'une fonc- 
tionnelle soit nécessaire pour (T7, T}) aussi bien que pour (3, ®). 

Au contraire supposons les unités-échantillons tirées avec des 
probabilités uniformes pour le rayon vecteur et l'angle polaire; alors 
on a : 

&R =r, 6® =8; 
la perte d'information attachée au point moyen est, disons 


V(uR +vo) 


mais les pertes relatives à l'estimation de x par X, de y par Y ne sont 
plus séparément de la forme 


oo). 80 (Y) - o(ÿ). 


14/ - Les pertes d'information des estimateurs uniformément 
biaisés. 


THEOREME II bis - 
a) Si 6W = 6012] -0 [{] 


CZ 10 Pa ZT 


on peut poser : W 


0 


et on a : &éa [Z, &] 


b) Pour que les deux égalités &4[Z, ee Et 
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et EFAUIZMZAN=L0 
entraînent SAUNA O 
il suffit qu'on ait : ANZT, Cle NA 2, 2e, ci 


(où À etu sont des constantes). 


c) Mais, pour que cette relation reste vérifiée lorsque Z 
vient en&, il faut que À = 1; et pour que Z' puisse se confondre avec Z 
il faut que u = 1. 
D'où A IZU 0) = AÏZU ZEN Z FA 


L'estimateur est uniformément biaisé. Pour cela il suffit qu'on ait : 


AZ os ep oliiete 1710 avec Pp = Pic] 


THEOREME III bis - 


a) Si l'on veut W[Z,&] symétrique, il suffit de poser 


WIZ,5] ={ylZ] -vlt]} 
= y2{(Z] -w?2[6] +2w[c]) {wlc] - v[Z1} 
d'où o [Z] = w[Z] 
Réciproquement : W = W° AVECUA pp y*) 


W =(p-p*}(y- vw*)/2 


impliquent  ®+*- © =-{(p + p*{y- w*)/2 
ÉD 1 
7 = RE + (py*- p*y) 
p* P 
où py* - p*y = O0, ce = os DU (constante) 
d'où ® = À. 


b) En dehors du cas symétrique, on peut vouloir exiger 
seulement de W d'être positive (sauf WIt,&t] = 0), croissante avec 
[Z:. = 5}. On a 
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LENCENT SET EN 


Posons Q = ® - w2; faisons p = 2vw; 
d'où W=(yt-v) + 0*-0Q 
avec Q = a], QE AI 


En exigeant to pour |Z - 510, on remplit les conditions 
voulues. 


Conclusion. 


Lorsque l'estimateur Z de & est biaisé, la perte d'information 
peut se calculer comme pour un estimateur sans biais, à condition : 
que Z soit ‘uniformément! biaisé : EwlZ,, Z,] = 0; qu'on se contente 
de conditions suffisantes, là où on avait des conditions nécessaires et 
suffisantes moyennant une régularité suffisante des fonctions. 


D'ailleurs en supposant que les fonctionnelles ® [Z] ou y[Z] sont 
des fonctions de point (le nombre de dimensions de l'espaceZ pouvant 
même être infini) et en supposant l'existence des dérivées partielles, 
on peut aller plus loin - on l'a vu aux n°7, 8. 


Enfin l'existence des fonctionnelles «, © ou y pour tous les Z (y 
compris &)sous-entenden fait que Z et & aient une expression commu- 
ne (sans aller peut-être jusqu'à l'isomorphisme des n°7-8). 


ILIÙMÙL = _ PERTES AU SENS DU CHAPITRE I - 


La perte d'information envisagée ici concerne un plan de sondage 
bien déterminé et a un certain ordre; il ne lui correspond plus spécia- 
lement telle ou telle estimation. On connaît déjà les pertes d'ordre r 
(et leurs combinaisons linéaires) relatives à un plan de sondage dans 
une seule urne (Chapitre II). On se propose de montrer que (sous des 
conditions relativement peu restrictives) il n'existe pas d'autres solu- 
tions de l'équation de Chasles que les dites combinaisons linéaires, 
avec un plan de sondage cette fois très général. 


On suppose invariable la structure du sondage, c'est dire que les 
plans de sondage (=)de la famille (F) sont figurés par les sommets d'un 
certain treillis. 


Quand on sonde une urne unique, l'axe d'information possède un 
certain point (5) correspondant à la plus grande perte d'information 
(non infinie)(c'est-à-dire que s estle point n = 1 pour estimer Re? 
pour estimer 2 et x, n = 3 pour estimer cov(xy), 6? of , xety etc.) 
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Ce point « sera l'horizon. 


L'horizon d'un treillis de sondage. 


Soit un famille F de plans de sondage de treillis 
(AS 420270) 


avec ÀA,>r. Le point (r r ... r) en constitue l'horizon. 


Exemples. 
Sondage stratifié a Te 
sondage à 2 degrés HS I, PR Se: 


Cas d'un treillis découpé en sous-ensembles. 


Considérons le cas d'un échantillon stratifié a posteriori - s'il 
est tiré sans remise et d'ordre r, figuré sur un axe par les points 
(n >r), le point (5) (n = r) est l'horizon. En revanche si l'on considère 
le treillis du sondage stratifié normal dont il dérive (treillis sur lequel 
on a convenu par exemple que l'estimateur banal, - non stratifié - était 
affecté aux points tels qu'un n, au moins est inférieur à r) il existe un 
sous-ensemble 5(n = r) et non un point unique 5. 


Conventions. 


Pour simplifier on supposera qu'il existe sur le treillis un hori- 
zon et un seul, où aboutissent tous les trajets [U x rs! ...] issus de U 
(point figurant la connaissance complète); en appelant trajet"! une li- 
gne brisée (empruntant exclusivement les côtés du treillis) le long de la- 
quelle la taille de l'échantillon décroît (c'est-à-dire que l'un des ‘'ef- 
fectifs'' de l'échantillon décroît). Se 


Si d'autres cas se présentent, on ne retiendra que ceux qui peu- 
vent Se ramener aux conventions ci-dessus. 


Exemple : Sondage à deux phases. 


Le treillis (m, n,... n;) comprend un axe (représentant la pre- 
mière phase de sondage) sur qui s'appuie une famille de génératrices 
(m) portant les points figurant la seconde phase. Il n'existe donc pas 
d'horizon (5). On sort des hypothèses fixées. (Toutefois ce treillis 
peut être remplacé par un autre, comme on le verra au chapitre VI; et 
avec des composantes négatives, on pourrait étendre les résultats qui 
vont suivre). 
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THEOREME I - 

Soit I et J deux échantillons du plan de sondage r'"'. Soit g(I, J) 
une fonction symétrique de I et J, nulle quand I et J sont confondus, 
positive en tout autre cas; g pouvant d'ailleurs dépendre également de 
la distribution de base (qu'on désigne par U}). Si la perte de r'' est de 
la forme : 

p(r') = € g(l, J) 


et si r' précède + sur les trajets [U='"] (au sens précédent), 1! et “" 
étant sur le même axe d'information, on a par définition : 


p(r) = p(x')+&P(x'/x') 


d'où p(r') =p(r')}- &P(r'/1') 
ou Diane (CU) ee, EL) 
de la forme p(r') =6 g(l, J). [1 - q(zx'/7")] 


De même, si r précède +! sur les trajets [Ur'], il précède aussi 1" 
AMOrtlOon; eton a: 


pr) & g(I, J) FL SEL; J) 


La condition d'alignement étant (chapitre III, $ IL) pour les trois 


points” v' "x _: 
&P(x''/7x) - &P(r''/x') = EP(x'/x), 
il s'en suit qu'on peut écrire 
p(r) = 6 g(l, J) [1 -p(r/r")] 
pr!) - p(r)= 6, g(L. J)lo(r /x") - g(r'/7")] 
THEOREME 2 - 


SoitI, J, Ktrois échantillons du plan de sondage 5 "et g(I J K) une 
fonction symétrique de I J K, nulle quand I J et K sont tous trois con- 
fondus et positive en tout autre cas. Supposons la perte p(r'') de la 
forme 


p(r')=6 g(l, J, K) 


Si r' précède ='' et x précède *' sur un même axe d'information, on a 
encore : 
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plr) = 6 gl, J,'K). [1 -w(r/n)] 


p(m)- p(r)=6,g(l, J, K).[o(m/r") -o(r/")] 


Ceci s'étend à un nombre quelconque d'échantillons. Dans ce qui suit, 


ces extensions à plus de deux échantillons ne seront plus explicitement 


formulées, encore qu'elles demeurent possibles en principe. 


Cas où r'' et & coincident. 


! soit tel que la 


11 


Supposons en particulier que le plan de sondage r' 
perte d'information ne soit plus définie pour aucun trajet [Um] où # 
précède r; ce qui revient à dire que r' est l'horizon &. On a donc : 


THEOREME 3 - 
pr) =é,g(l. J) [1 -8(x)] avec 0(5) = 0, 


pour tous les plans de sondage r qui sont sur des axes d'information 
aboutissant au point w, pourvu que la perte relative au plan de sondage 
(5) soit elle-même de la forme 


& g(1, J) 


Combinaisons linéaires de fonctions g(I, J). 


THEOREME 4 - 


Des fonctions g différentes (représentant chacune une distance 
entre deux échantillons) peuvent être envisagées simultanément et com- 
binées linéairement, ce qui donne : 


p(o) = 2 à; Egi(l, J) 
pOnt)- pr) = Ÿ à, 68;(L J) (6, (m) - 6,(n')] 


Les coefficients À sont des constantes, à moins qu'ils ne dépen- 
dent de la distribution de base U. Il n'est pas nécessaire qu'ils soient 
tous positifs, mais la combinaison p(r) doit toujours rester positive 
(avec p(U)= 0). 


Remarque. Cas de pertes d'information d'ordres divers. 


La difficulté suivante se présentera. On tire des boules d'une 
urne unique. 


D'une part soit r = 2. Ontire I(x,, x)et J{(xy,xk1) avec quoi on forme 
par exemple : 
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LT) le +) x) 


d'autre part on choisit r =1, ontire i(x.) et j(x;) avec quoi on forme, 
disons : 


GR). 
Il n'est pas question de former DR UTEX. 0. 


On adopte comme horizon w le plan de sondage d'effectif n = 2; et l'ex- 
pression g, ne sauraitêtre (x;-x;)* mais par exemple : 


ROUX x es) 
ou bien encore (x, = Xi) + - x) + (KR, - xé) + (xx = Xe) 
Telle est la signification du théorème 4. 


Réciproque (ou THEOREME 5). 


Toute perte p(s) est nécessairement de la forme : 
p(s) = À &g(l, J...)[e(u)-8(r)] 
(sous réserve qu'il existe un horizon w). 


L'énoncé de ce résultat très important et très général va être 
précisé au cours de la démonstration. 


a) Considérons les arêtes du treillis, ayant leur extrémité 
en w et leur origine en des points r° (qui précèdent immédiatement w 
sur le trajet [u... w]). Considérons l'un de ces (r°) et soit E° l'un de 
ses échantillons. 


E° renferme plusieurs échantillons de (w), qu'on désignera par ij..., 
- et leur donne naissance quand on tire des échantillons de plus en plus 
petits (en tirant au sort les unités chassées de l'échantillon). 


b) La perte d'information supplémentaire, en l'occurence 
P(5&/E°), est de la forme g'(i j...). 
En effet : elle est nulle si tous les i j ... sont identiques entre eux puis- 
qu'alors onne perd rien à en perdre un; elle est positive en tous autres 


cas; elle dépend symétriquement des ij... siceux-ci sont équiprobables. 


c) Par suite l'expression P(w/x°) est de la forme g'{i j ...) 


362 PIERRE THIONET 


et, en posant : 


g' = g, [0(7°) - 6()] avec 8 (x) = 0,8croissante 


on a p(u) - p(r°) = &g, - [0 (n°) - 8(x)] 


Remontons alors l'axe r°w sur toute sa longueur; on aura (théorème 3 
ci-dessus) : 


p(o) - p(r)= 6 g, [0(x) - O(w)] 


8 étantune fonction croissante quand la taille de l'échantillon augmente. 
Repérons les plans de sondage r de cet axe par des indices r pourv, 
(r + 1) pour r°, (r+2) etc. m (pour x). La suite des m est, soit bornée 
par un certainu, soit infinie (tirages avec remise et on arrive alors à 
un point d'accumulation “ ©); dans les deux cas on pourra écrire, ar- 
rivé à l'extrémité de l'axe opposée à vw: 


po) - p(r,)= Sale, - 8,] 


Or on a supposé (par hypothèse) que tout r pouvait être atteint 
par un trajetissu de U et aussi que tous ces trajets aboutissaient en w. 
Ilexiste donc au moins un trajet [u F w] qu'on va remonter de rx, vers 
U sur un autre axe (le premier ayant été épuisé). Axe qui d'ailleurs 
comme le premier peut n'être qu'une arête unique. 


Le long de cet axe, p(r,) - p(r) est encore de la forme 


6g, lo, - a,] 


n 


où « désigne une fonction croissante quand la taille de l'échantillon 
augmente : g, désigne une fonction symétrique d'un certain nombre 
d'échantillons de (x ,)- 


De proche en proche, on arrivera ainsi au point U, p(w)-p(Tr) deviendra 


p(s) - p(U)= p(s) 
de la forme 


p(n) =6g,(9,- 6,)+6g,(0,-0,)+... +6g(p,- p,)  cafd 


Corollaire. 


Toute perte p(r) est nécessairement de la forme précédente où 
8, remplace 6,. (Démonstration analogue en suivant un trajet [U r] à 
l'envers, en remontant toujours les axes d'information (jusqu'à leur 
origine par exemple). C'est le théorème annoncé au Ch,Il, $ IV, Réci- 
proque du Th. 2. 


| 
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Remarque. 


1) La décomposition de p(x) ou p(#) en À composantes n'est pas 
unique. On verra plus loin qu'avec les sondages à À strates on peut 
définir strictement À composantes, tandis que pour les sondages à 
À degrés on pourra en définir strictement 2” - 1 (si chaque degré de 
sondage est indépendant des autres). 


2) Les fonctions 8, , ...p , y considérées plus haut ne dépen- 
dent pas seulement de la taille des échantillons. Lorsque tous les ti- 
rages au sort sont équiprobables, il est bien clair que ces fonctions se 
déduisent d'un calcul facile d'analyse combinatoire. Mais considérons 
par exemple une stratificationa posteriori en deux strates d'un échan- 
tillon bernoullien de taillen: l'expression de p{n) n'est pas aussi sim- 


ple. Par exemple on aurait (p, et p, désignant les proportions de la po- 
pulation dans chaque strate). 


X = Pau I Pa): LED: SD, 


ER Star DL 1 DRE? 1 
K-piis() HD 0, G RES FE 
L 


+ 


À 
nn, = 0 Sn din) niv ne 


On peut poser &(1/n.) = 6(%) -8 {n), mais ne pas oublier qu'une telle 
expression dépend de p.. 


Le problème de la forme des fonctions g(I, J). 


Soit I J un couple d'échantillons tiré au sort et & l'espérance 
mathématique des tirages avec remise. On sait que 


VAE ZAC) 
peut s'écrire, quel que soit le plan de sondage : 


1 
VZ=6(Z,- NÉE ER d) 


avec UT) =(Z -Z)/2 (en supposant 6Z =) 


Ainsi pour une suite de plans de sondage de tailles décroissantes 
extraite d'une famille F, la perte d'information V Z conserve à toutes 
les étapes la forme &g(I J) avec la même fonction g. 


En particulier si la perte est d'ordre 1, l'estimateur z(X) prend 
pour n = 1 les valeurs z(x;) et z(x;) sur le couple échantillon x;x;; et 
on a : 


gti j) = Lz(x:) - z(x;)] /2 
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(en supposant &z(X) = LC). 


Il1n'y a aucune raison pour qu'on ait (avec d'autres fonctions ge 


Sell, J)= E, gli, j) - 6, 6,8li, j) 


etona peu de chances de se tromper en voyant dans cette conservation, 


de la forme une propriété de la seule variance, parmi toutes les pertes 
d'information au point de vue du chapitre II. 


Mais onn'a pas trouvé le cheminqui conduirait à un résultat aus- 
si général (qui est assez analogue aux problèmes d'agrégation posés 
par d'autres théories). 


IV - PERTE D'INFORMATION D'UN SONDAGE OÙ D'UNE 
ESTIMATION ? 


1/ - Enoncé du problème. 


Dans quel cas est-il possible d'expliquer une perte d'informa- 
tion au sens du Chapitre IL (concernant un plan de sondage) en mon- 
trant que c'est en fait une perte d'information au sens du Chapitre I 
(relative à l'estimation d'un paramètre ou d'un groupe de paramètres)? 


Nous sommes loin d'avoir résolu ce problème, mais allons don- 
ner quelques résultats fragmentaires le concernant. 
2/ - Un principe général. 


S'il n'était d'estimations qu'estimations sans biais, il serait pos- 
sible déjà de poser un principe, d'une application d'ailleurs délicate 


Toute perte au sens du Chapitre I peut se mettre sous la forme : 
&0(Z) -®(0) 


et correspond alors à l'estimation sans biais deWo(t) par \ 9(Z) avec 
un poids W symétrique, plus des estimations diverses avec poids 
dissymétrique. 


Avec les estimations biaisées, limitées au cas isomorphe comme 
on l'a fait ici, le même principe fait intervenir des fonctionnelles : 


60[Z] -o K] 
Enfin les théorèmes qu'on évoque ici ne sont vérifiés qu'autant 


que les fonctions ou fonctionnelles auxquelles on a recours possèdent 
des dérivées pour & = Z; l'existence des dérivées de tous ordres est 
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requise pour le développement en série; une telle condition est peut- 
être trop restrictive; mais le théorème laisse échapper à coup sûr le 
cas de W = |Z - t|, où la dérivée pour Z = & n'existe pas, or on sait 
qu'il existe des pertes &6[Z -t1|, au moins pour les estimations biai- 
sées du ‘'range'' et de la plus grande (ou petite) valeur - Les conditions 
de régularité nécessaires pour établir les théorèmes généraux laissent 
donc échapper des cas intéressants. 


3/ - Un exemple d'interprétation. 


Limitons-nous aux tirages équiprobables dans une urne unique; 
et étudions le cas de 


plv, n)=&@(x, - x,). [6(v) -e(n)] 


J 


Cette perte d'information au sens du Chapitre Il correspond-elle 
à une estimation ? On précisera ceci ultérieurement. 


Calcul de «= 2 2 (x; - x) vw. 
SSLSUIRMERES SR 
Tex 
Partantde, 7 J(6-x;) = £ -4Pu +66 w-4fu,+u, et en y 
3Û 


faisant successivement : € = x 
vient : 


,» X,-.. X,,Sommant et divisant par v il 


les y désignant les moments non-centrés des x;;, u,= x; exprimé avec 
les moments centrés, il vient : 


a = 2(u, + 30*) 


Divers essais pour mettre «a sous la forme &W{(z,, ©) échouent; 
mais on trouve autre chose. 


Première interprétation. 


Il était bien naturel qu'on rapprochôt «a et plus généralement 
à 2(x, - x,)/"/w,avec le minimum de la fonction 
ONE 
lorsque € décrit l'axe des x; -minimum qui a lieu pour 
AIS 0 En 
équation qui admet une et une seule racine positive, vu que z'(6) est 


nécessairement positive; en particulier, pour r = 1, c'est x. 
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Dans le cas plus particulier de r = 2, désignons par le minimum 
de y/v, atteint pour £=6,. Ona: | 


y/v = E* - 4 LE +6 net - 4u,6 ET 


0 


LE o ane + 3 460 = H3léo 


n = 5-46 +646 - 46e + by 


d'où as (uen) Est LESC eu) 


Rapprochons cette expression de celle de 


NI 


a= (un u)- 3n(u uw uNPS moe") 


Pour qu'elles coincident, il faut et il suffit qu'on ait : 


Hu 
ce qui est exclu. Mais la ressemblance formelle entre les deux formu- 
les justifie qu'on tienne «a pour une distance entre les x; et un point 
fictif où &, est remplacé par u, eté par h,. 


Il est clair que ceci s'étend à toutes les sommes de puissances 


paires des (x, -x,). 
Seconde interprétation. 
La première interprétation ne permet d'ailleurs pas de retrou- 


ver les estimations sans biais de u, etu,; car la variance simultanée 
s'écrit 


Ex - u,+t(x;-u,)]* = 6(xË-u,) + 2te(x-u,x-u,) + 7 6(x;-u1) 


Cay= u) + 2tu,- mu) + Qu, u?) 


alors qu'on a à = (by- 12) - AU(H3= Halo) + 4 Ho Ho= Hi) 
Oriln'estpas possible de faire t? = 4u,, t = -2u, simultanément, car : 
M, f wi 


En revanche on peut remplacer t par (-2 x;), Où x, est supposé 
indépendant de x.;. 


Considérons alors la variable (où x, et x; Sont indépendants) 
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Æ, 2 2 
Y = Xi = 4 x;x; + Xi 


on a EY% = 2U,- Auf 


$ 


1) Il s'agit de tirages bernoulliens. 


2) [1 s'agit d'une perte d'ordre 2, de sorte que p n'est perte que 
si la fonction 8 est d'ordre 2 (contrairement à ce qu'on avait pu penser, 
la seule connaissance de à ne permet donc pas de trancher la question). 


Remarque. 


D'ailleurs le calcul de Y S° (nS’/n - 1, estimateur de vo?/v - 1) 
conduit à une composante en «. Les combinaisons linéaires de plusieurs 
variances conservent les propriétés de récurrence. Bien des informa- 
tions au sens du Chapitre II ne sont que des composantes des informa- 
tions au sens du Chapitre I; c'est peut-être la véritable ‘'explication" 
de leur existence. 


4/ - Une méthode de calcul (tirages dans une seule urne). 


Considérons une perte d'information d'ordre 1 


sel, IE - 1) 


où g est de la forme g(z;, z;), avec z = h{x), 
g > 0, sauf gli i) = O. 


Pour n = 1, on imagine un estimateur Z prenant les valeurs z;; 
on ne peut poser 


Mase(z:0) 
En revanche : 
THEOREME - 
On peut toujours poser 
W(Z, 5)=6;e(Z, z;) pese g(Z, [) 


Effectivement on vérifie que & W(Z, &) est identique à 
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6;; g(zZiz;) 

et que W{& &) = 0, quel que soit. 

Choix de &. 


Lorsque Z=&+e, g(Z, t)est positif très petit; g(C+e, z:)-g(6, 2j; 


est du signe dee(e -z.); si l'on veut être assuré que W est toujours 
positif (hors le cas Z ={ ), il faut donc que 


6 g(c, z;) 


soit le minimum deë; g(t FE, z;). Ceci conduit à choisir & tel que 
min &,g(Z, z,) = 6;g(L, z,). 


Remarque. 


Tout ceci suppose n = 1. Passons au cas où n est quelconque. 
Par hypothèse 


pen) né P(n el) Ep) 
p(v, n) =p{v, 1) - &P(n, 1) 

On vient d'interprêter p(v, 1) =&W(Z,, &t) et on a de même 
P{n, 1)+EW(Z,, 2) 


Z, étant défini dans l'urne aléatoire de taille n par la même conditior 
que & l'est dans l'univers. 


Convention. 


On peut alors convenir que p(v, n) représente la distance entre 
& et Z,, la perte d'information sur & quand on connaît Z,. Ceci est pure- 
ment conventionnel cette fois, car 


p(v, n)= &W(Z,, PJ eE W(Z:, Z;) 
n'implique pas pv, n)=&W(Z,, &) ni même &W[Z,,6]. 
g est une fonction; W(Z,, &[) et W(Z,, Z,) sont des fonctions. 


Nous n'avons aucune raison de choisir une fonctionnelle déterminée 
PEAR SEA RER ACER LERO REED ES BA PTE 

Wii Ti 

li 


Application. g = |z; -2, 


> || 


LA PERTE D'INFORMATION PAR SONDAGE 369 


En écrivant que &g(Z, z,) est minimum pour Z = {, on retrouve 
une propriété bien connue de la médiane (ou de l'intervalle médian) : 
lorsque a = 1; tandis que, pour a = 2 on a (bien entendu) la moyenne. 
Pour une valeur quelconque de a, il faudrait d'abord discuter l'exis- 
tence et l'unicité de &. 


5/ - Etude directe de l'estimation de la médiane. 


Entrée en matières. 


Pour simplifier on supposera impäir l'effectif de la population 
(soit 2 v + 1) et celui de chaque échantillon (soit 2n'+ 1). 


Partant d'une population entièrement connue, on passera à des 
échantillons d'effectif décroissant par deux unités à la foisn=2v-1, 
AVRETON she 0; 05 0L. 

Z 


Z LILI LIEE 


Désignons les médianes par & =2Z ape 2, 2,2, 


2v'+1? 2y] 


En particulier (si les x. sont tous distincts) : 


a) Z,,,_jCpincide avec & si les x, inconnues sont l'un plus 
grand, l'autre plus petitque &; dans le cas contraire Z,,, coïncide avec 
la valeur x, immédiatement supérieure, - ou inférieure, - à C. 


b) Z, a une chance sur (2v'+ 1)de coïncider avec chacune 
des valeurs x:. 


c) Les cas intermédiaires sont moins simples;supposons 
v = 5. 


Soit a >b >c >d >e ([ = c)les valeurs x; considérées. On voit que : 


pourn=3,, Z;,= c (probabilité 4/10) 
b ou d (probabilité 3/10) 


Sauf lorsque la distribution des x, est symétrique, Z est un estimateur 
biaisé de &. 


Perte d'information liée à l'estimation de la médiane. 


a) La moyenne et la médiane présentent des analogies im- 
portantes. Soit x un point courant de l'axe, x la moyenne des x;jet x 
leur médiane. 


On sait que : min D |x,- ie Ix, - %| 
min Ÿ (x,-xŸ SO (x; x) 
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Onest donctenté de voir dans Y|x;:- #|/v une perte d'informa- 
tion; enfait cette expression ne possède pas les propriétés nécessaires. 


Montrons-le sur l'exemple précédent des cinq boules. 


La perte d'information devrait s'évaluer, pour n' = | & 


soit directement par : [leal + [cbl + [ed] + |ce/y5 
: à ; es 2 
soit en deux étapes, par : [|cb| + |cd|] 10 pour n=3 
pourn'=1(n=3), par : f acd [|ca Le |cd|]/30 
+ Ice |]/30 
10 combinaisons + |cd|]/30 
à 3 de 5 lettres DO CODCTOO UE 0000 6 0 
+ _ |de|]/30 


L'identification des deux expressions del'information donne : 


2 


o 2 
10 [[ae| + |bd|] = 10/24 + Ê [ae] + us Eva | 


10 
c'est-à-dire |bd| = 
(b, c, d confondus) ce qui est exclu. 
b) On est tenté de même de remplacer (x, 2x) ‘je par 


Pa à il dans l'expression de la perte d'information relative à X, pour 
obtenir celle relative à la médiane échantillon * soit : 


: Zlxi-xl 4 3 A D2Ix;- #1 DR 
SIC PES v(v = 1) n CHE T v 2 v = 1 


C'est incontestablement une perte d'information. Donnons une 
expression de 


X = k » D | X, — x | 
V 
qui rappelle beaucoup celle du paragraphe a, ci-dessus. 


Calcul de «. 


Désignons par x, la suite ordonnée : 
RÉ Do O0 ES 5e 


14 


Il vient : 


LA PERTE D'INFORMATION PAR SONDAGE 371 


lehéve DR eo cm) = (ve ln - #1) 
2<h<v-2 2 (reel On) = (ne = x) 
etc. etc. 


Si vest impair, on termine sur #F Din, | 
3 2 


Si vest pair, on termine sur 1e bee x, | 
La 


Pour v impair, on a donc : 


2 
= 2 [e - LEA X,) +(v- 3)(K, = X,) + DEEE 2(x,., He ds ] 
2 


2 


Avec X, - X 


Ée cer nl 


RO dE ue (Me etc. 


en désignant cette fois par x, la suite ... x. 


Remarque 1. 


Affecter aux points x; des poids 5 symétriques par rapport 
à leur médiane ne modifie en rien celle-ci; on a donc encore : 


. A L NS TV 
Mind ex Xl FIX) x) 
‘est 1 ticuli 
c'est le cas en particulier pour 
LL _ LE Ls ,_2 _ = D; 


(le point médian étant affecté d'un poids arbitraire). 


Remarque 2. 

Si « est la perte d'information p(v, 1) relative à l'estimation de 
X par l'un quelconque des x; de la population, P(n, 1) relative à la mé- 
diane X d'un échantillon donné lui est isomorphe; c'est-à-dire : 
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De l'identité 


s ee 2 
ve he 


généralisation du Lemme 2, découle bien : 


c'est-à-dire : pv, n)= 


En fait il s'agit d'une convention arbitraire. 4 


Exemple. 
. 2 
n = v - 2; p(v, VE 2) = tv) = Tv = 2) 4 


est incompatible avec p(v, v-2)= EW(X,., ,X) où or désigne les va- 
leurs que prend la médiane d'un échantillon d'effectif n = v - 2. 


Probabilité = 


Probabilité = 


Si W était fonction de x et se p serait fonction seulement des 
trois valeurs centrales de X; alors que si p est proportionnelle à «, 
elle dépend de toutes les valeurs de X sauf la médiane. 


La contradiction disparaîtrait si l'on convenait que W X, x] est 


fonctionnelle de toute la distribution X : nulle quand X prend la valeur 
X, positive autrement, croissante avec |X X|, soit ici : 


VE ïU v+ 1 À 2 @ 
W 0 = 

oprf pt 

Mais nous ne savons pas partager (8 va/ (v?-1) ("-2)entre les expressions 


We ‘| et WP li 


6/ - Quelques indications sur le cas où les modules remplacent 
les carrés. 
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a) De même qu'on a substitué |x; - x;| à (x; - x;) pour 
trouver la perte d'information attachée à l'estimation de la médiane 
de la population par la médiane échantillon, étudions l'expression 


Ô = lu(x S X;) SE v(y; d ;) | = |(ux, Vy) a (ux; A VY;) | 
qui remplace MUSÉES VAT) 


On peut l'interprêter de plusieurs façons : 


Si u et v sont considérés comme des vecteurs de base, 5 est le 
module du vecteur de composantes (x; - x;), (y; - y;); 


Si u et v sont considérés comme des scalaires et (u,v) comme 
les composantes rectangulaires d'un vecteur, 


5 / NATSS EVE 
est la projection du vecteur (x; - x, y; - y;) sur la direction (u, v). 


A ce second point de vue 


(l 


pour u = 1, v = 0 on retrouve le problème de la médiane des x;; 


pour u = 0, v = 1 on a celui de la médiane des y; 


pour u? +v?=1,on a celui de la médiane des projections des 
points (x; y;) sur (u, v). 


Remarque. 


Ilest exceptionnel que le nuage des points (x, y) ait un point mé- 
dian M,; ceci suppose le nuage décomposé en deux demi-nuages (M, ) 
(M',) M, et M', étantalignés avec M, et de partet d'autre de M, (quel 
que soit h). 


Dans le cas général si on fait tourner la direction (u, v), la projection 
de tout point (x; x,)a l'occasion d'être une médiane (à tour de rôle). 


b) Cas du produit vectoriel. 


Faisant pendantau produit scalaire X.Y) caché dans V(uX + vY), 
on peut reconnaître le produit vectoriel (X AŸ) derrière l'expression 


Fete &1x;y; # x y | 


2 > 5 » : 
Il est clair que « nul équivaut à X et Ÿ colinéaire (toutes ses 
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composantes étant nulles); autrement dit (x,, y,) ... (x;, ÿ:)... points 
alignés avec l'origine. 


L'hey, - x-y | 
2 1Y; ji 


est l'aire du triangle de sommets (00) (x; y;) (x; y;) ou OM;M.. 


Ainsi « mesure en quelque sorte l'éventail entre les divers rayons 
vecteurs OM; autour d'un rayon vecteur central. 


c) Sur le cas |x.- x. = g(i, j). 


—_—l— | 


Pour simplifier supposons que la variable x; prenne quatre valeurs 
ab CE 
On aura donc 


À, [(a-b) + (a-c) + (a-d)° + (b-c)”+ (b-d) + (c-d)”] 


o 
1 


: [3a5 + b3 - c3 - 343 - Sab(a-b) - 3ac(a-c) - 3ad(a-d) 
- 3bc{b-c) - 3bd(b-d) - 3cd(c-d)] 


Le terme (3a? +b? - ©? - 3d?)est analogue auterme (3a + b - c - 3d) 
qui apparaît quand on traite le cas de la première puissance, c'est 


Jh(x à x2,,) 
h 
Les autres termes ont une structure comparable, on reconnaît : 


DES [x; - x; | 


Au total 5 est la somme des deux termes 


2UN 
v2 — 


20 2 vx 6 
Ë re Dix? - w|- SR PLE - xix;| 


(x; MAR 2 î 


J 

Iln'a pas paru qu'en général cette expression pouvait représen- 
ter une perte d'information attachée à l'estimation (biaisée) d'un para- 
mètre. Mais il ne paraît pas absurde d'y voir une perte d'information. 
relative à l'estimation simultanée de deux caractéristiques (médiane 
et rayon vecteur central). 


IMP. LOUIS-JEAN — GAP 
Depôt légal. n°66 - 1960 


Fasc. 


Fasc. 


Fasc. 


Fasc. 


TABLE DES MATIÈRES 


Contribution à la Théorie des Valeurs extrêmes (Deuxième par- 
HO) RU GEEERO SRE Re a Ne D 


Le problème du mouvement brownien et ses généralisations. 


GMA ECO TER a a M US 


L'Information en Statistique Mathématique et dans la théorie des 
communication DE DMIJOSAIERERS EE re 


SumiineoaliteSdeSEUTSKYAMEUCEIS ER PE RREC 


ANalYSen TTOUNVTATeS en re ee eu ie ie Cd 


Les modèles stochastiques en Génétique de population. G. MALECOT 


Conception stochastique de coefficients multiplicateurs dans l’ajus- 
tement linéaire des séries temporelles. H. THEIL et L.-B. MENNES 


Fonctions de répartition à N dimensions et leurs marges. M. SKLAR 


Un modèle économétrique : La Projection à long terme de Verdorn. 


Sur quelques points de la théorie des tests. G. MORLAT ........ 


La Perte d'information par sondage (calcul des probabilités). 
PAT IONE D te een Ce RO ee NT UE Conf 


67 


